基因轉(zhuǎn)錄組的測定及分析._第1頁
基因轉(zhuǎn)錄組的測定及分析._第2頁
基因轉(zhuǎn)錄組的測定及分析._第3頁
基因轉(zhuǎn)錄組的測定及分析._第4頁
基因轉(zhuǎn)錄組的測定及分析._第5頁
已閱讀5頁,還剩161頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、胡松年中國科學(xué)院北京基因研究所什么是 ESTs ?ESTs(Expressed Sequence tags )是從已建好的cDNA庫中隨機(jī)取出一個(gè)克隆,從5末端或3末端對插入的cDNA片段進(jìn)行一輪單向自動(dòng)測序,所獲得的約60-500bp的一段cDNA序列。大規(guī)模EST序列測定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測定了三種人腦組織共609條EST,宣布 了cDNA大規(guī)模測序的時(shí)代的開始代1991年:Okubo等提出大規(guī)模cDNA測序的研究戰(zhàn)略1993年:Venter等創(chuàng)立現(xiàn)在的EST技術(shù)1993年:Boguski & Schuler提出以EST為界標(biāo)的人

2、類 基因組轉(zhuǎn)錄圖譜計(jì)劃 93年前ESTs數(shù)據(jù)收錄于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一個(gè)專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。 95年中期GenBank 中EST的數(shù)目超過了非EST的數(shù)目。 現(xiàn)在GenBank中EST的數(shù)目已經(jīng)超過了三千五百萬,約占GenBank中序列數(shù)的60%.EST數(shù)量排名前10的物種Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mouse)

3、 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis 1,249,110 截止到2010年3月19日 EST相關(guān)

4、數(shù)據(jù)庫相關(guān)數(shù)據(jù)庫 儲(chǔ)存EST原始數(shù)據(jù)的一級數(shù)據(jù)庫 EMBL GenBank (dbEST) DDBJ UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)對EST進(jìn)行聚類拼接的二級數(shù)據(jù)庫EST的應(yīng)用 1ESTs與基因識(shí)別 ESTs已經(jīng)被廣泛的應(yīng)用于基因識(shí)別,因?yàn)镋STs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguski et al.

5、, 1994). 在同一物種中搜尋基因家族的新成員在同一物種中搜尋基因家族的新成員(paralogs)。 在不同物種間搜尋功能相同的基因在不同物種間搜尋功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜尋。已知基因的不同剪切模式的搜尋。【注:不過很難確注:不過很難確定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組文庫中污染了基因組DNA序列序列(Wolfsberg et al., 1997)】EST的應(yīng)用 2ESTs與基因圖譜的繪制 EST可以借助于序列標(biāo)簽位點(diǎn)(sequence-tagged sites)用于基因圖

6、譜的構(gòu)建. STS本身是從人類基因組中隨機(jī)選擇出來的長度在200-300bp左右的經(jīng)PCR檢測的基因組中唯一的一段序列。來自mRNA的3非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點(diǎn)主要包括: 由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同; 與編碼區(qū)具有很強(qiáng)的保守性不同,3UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。 (James Sikela等,1991年)EST的應(yīng)用 3ESTsESTs與基因預(yù)測與基因預(yù)測 由于EST來源于cDNA,因此每一條EST均代表了文庫建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)

7、下的一個(gè)基因的部分序列。使用合適的比對參數(shù),大于90的已經(jīng)注釋的基因都能在EST庫中檢測到(Bailey et al., 1998)。ESTs可以做為其它基因預(yù)測算法的補(bǔ)充,因?yàn)樗鼈儗︻A(yù)測基因的交替剪切和3 非翻譯區(qū)很有效。 ESTsESTs與與SNPsSNPs 來自不同個(gè)體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 應(yīng)注意注意區(qū)別

8、真正的SNPs和由于測序錯(cuò)誤( ESTs為單向測序得來,錯(cuò)誤率可達(dá)2)而引起的本身不存在的SNPs。解決這一問題可以通過: 提高ESTs分析的準(zhǔn)確性。 對所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證進(jìn)行實(shí)驗(yàn)驗(yàn)證。EST的應(yīng)用 4EST的應(yīng)用 5利用利用ESTsESTs大規(guī)模分析基因表達(dá)水平大規(guī)模分析基因表達(dá)水平 因?yàn)镋ST序列是從某以特定的組織的cDNA文庫中隨機(jī)測序而得到,所以可以用利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫EST分析特定組織的基因表達(dá)譜。標(biāo)準(zhǔn)化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達(dá)的水平。 CGAP 為研究癌癥的分子機(jī)理,美國國家癌癥研究所NCI的癌癥基因組解析計(jì)劃(Ca

9、ncer Genome Anatomy Project , CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進(jìn)行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達(dá)的差異, 如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表達(dá)系列分析基因表達(dá)系列分析(Serial Analysis of Gene Expression, SAGE) 基因表達(dá)系列分析是一種用于定量,高通量基因表達(dá)分析的實(shí)驗(yàn)方法(Velculescu et al.,

10、1995)。SAGE的原理就是分離每個(gè)轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9-21個(gè)堿基對),這些短的序列被連接、克隆和測序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對應(yīng)的基因的表達(dá)豐度。 DNA微陣列或基因芯片的研究微陣列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達(dá)的技術(shù),具有高通量分析的優(yōu)點(diǎn)。在許多情況下,cDNA芯片的探針來源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探針的設(shè)計(jì)。體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化Serial analysis of gene expression (SAGE) 技術(shù)

11、流程反轉(zhuǎn)錄反轉(zhuǎn)錄酶切酶切連接連接測序測序單條測序?qū)螚l測序?qū)?040條條EST測序測序分析分析低豐度表達(dá)基因、基因表達(dá)量分析、新基因、低豐度表達(dá)基因、基因表達(dá)量分析、新基因、上下調(diào)控基因鑒定、表達(dá)的復(fù)合效應(yīng)上下調(diào)控基因鑒定、表達(dá)的復(fù)合效應(yīng)Serial analysis of gene expression (SAGE) 技術(shù)流程l SAGE文庫的構(gòu)建: NlaIII(錨定酶)酶切,該酶能夠識(shí)別CATG位點(diǎn)并在其3端進(jìn)行酶切; 鏈霉素包被的磁珠進(jìn)行親和純化; 將cDNA分為A和B兩部分,分別連接接頭A或接頭B,每一種接頭都含有CATG四堿基突出端、限制性內(nèi)切酶BsmFI的識(shí)別序列和一個(gè)PCR引物

12、序列(引物A或B); 用標(biāo)簽酶BsmFI酶切,該酶在其識(shí)別位點(diǎn)3端下游的1417bp處進(jìn)行酶切,產(chǎn)生連有接頭的短cDNA片段; 混合并連接兩個(gè)短cDNA片段,構(gòu)成雙標(biāo)簽(ditag)后,用引物A和B進(jìn)行PCR擴(kuò)增; 錨定酶NlaIII切割擴(kuò)增產(chǎn)物,抽提SAGE雙標(biāo)簽片段;并用T4 DNA連接酶連接成多聚體(concaterner); 選擇合適的片斷長度,克隆進(jìn)載體;得到的克隆插入序列由一系列的2022bp長的SAGE雙標(biāo)簽組成,每兩個(gè)雙標(biāo)簽中間由4bp的NlaIII酶切位點(diǎn)分隔開。l SAGE文庫的測序: 單向測序。Serial analysis of gene expression (SAG

13、E) 分析流程l 在雙標(biāo)簽多聚體序列中定位NlaIII酶切位點(diǎn)(即CATG);l 提取CATG位點(diǎn)之間的2022bp長的雙標(biāo)簽序列;l 去除重復(fù)出現(xiàn)的雙標(biāo)簽序列,包括反向互補(bǔ)方向上重復(fù)的雙標(biāo)簽序列;l 截取每個(gè)雙標(biāo)簽序列最靠近兩頭末端的10個(gè)堿基,即為標(biāo)簽序列;l 去除與接頭序列相對應(yīng)的標(biāo)簽(即TCCCCGTACA和TCCCTATTAA),同時(shí)去除含有不確定堿基(即除A、C、T、G四種堿基以外的堿基)的標(biāo)簽;l 計(jì)算每個(gè)標(biāo)簽的出重復(fù)次數(shù),以列表的形式給出一個(gè)包含每個(gè)標(biāo)簽及其表達(dá)豐度的報(bào)告。 基因芯片或微陣列技術(shù)流程.Clone反轉(zhuǎn)錄(可選)反轉(zhuǎn)錄(可選)讀取光密度讀取光密度聚類分析(非同源功能

14、注釋)聚類分析(非同源功能注釋)標(biāo)記標(biāo)記雜交雜交反轉(zhuǎn)錄反轉(zhuǎn)錄EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表達(dá)量矩陣G1,G3,G5G2,G4G6,G9利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的研究已發(fā)現(xiàn)的基因基因)連接,連接,轉(zhuǎn)化轉(zhuǎn)化 Rice genome-wide DNA chip (60,000+預(yù)測基因) 果蠅基因芯片原位合成 幾種大規(guī)模分析基因表達(dá)水平的方法的比較幾種大規(guī)模分析基因表達(dá)水平的方法的比較lESTSAGEMicroarrayGeneChip發(fā)現(xiàn)新基因發(fā)現(xiàn)新基因是是否否有序列有序列是(可直接進(jìn)行可變剪切的分析)

15、否否否主要問題主要問題采樣量實(shí)驗(yàn)過程重復(fù)性成本高 ESTs很短,沒有給出完整的表達(dá)序列; 低豐度表達(dá)基因不易獲得。 由于只是一輪測序結(jié)果,出錯(cuò)率達(dá)2%-5%; 有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染; 有時(shí)出現(xiàn)鑲嵌克隆; 序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足數(shù)據(jù)的不足 技術(shù)路線cDNA文庫構(gòu)建隨機(jī)測序得到EST序列讀取與處理序列拼接和注釋表達(dá)豐度和功能分析表達(dá)譜特征分析表達(dá)譜特征分析表達(dá)量在不同文庫中的分布表達(dá)譜的比較分析差異表達(dá)基因鑒定與分類功能分析作用機(jī)理分析作用機(jī)理分析Q-PCR驗(yàn)證驗(yàn)證 l EST軟件平臺(tái)EST序列庫/序列的質(zhì)量檢查測

16、序量監(jiān)控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發(fā)現(xiàn)全長基因研究表達(dá)基因概況的主要實(shí)驗(yàn)手段(DNA chip、proteomics的先驅(qū))功能分類表達(dá)量分析SAGE的先驅(qū)交替剪接檢測EST特有信息cDNA文庫構(gòu)建 非標(biāo)準(zhǔn)化的非標(biāo)準(zhǔn)化的cDNA文庫的構(gòu)建。文庫的構(gòu)建。 經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫。文庫。 Oligo d(T) cDNA文庫。文庫。 隨機(jī)引物隨機(jī)引物cDNA文庫。文庫。cDNA文庫構(gòu)建常見問題文庫構(gòu)建常見問題lRNA得率低lmRNA分離效率低lcDNA產(chǎn)物少原因:多糖、多酚、內(nèi)源性核酸蛋白酶、 miRNA等原因l 多糖多糖-糖蛋白糖蛋白(核

17、酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多酚、多酚類等次生代謝產(chǎn)物在RNA分離時(shí),經(jīng)常與RNA共沉降,導(dǎo)致RNA 丟失丟失?;?qū)е路蛛x后的RNA嚴(yán)重不純不純,影響mRNA分離的得率。l 內(nèi)源性核酸酶內(nèi)源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降解降解,轉(zhuǎn)錄后的DNA接頭無法連接接頭無法連接,是cDNA得率低的原因之一原因之一。l miRNA的存在導(dǎo)致mRNA的降解的降解測序方向的選擇根據(jù)不同的實(shí)驗(yàn)?zāi)康倪x擇不同的測序方向: 5 5端端 5上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5端EST較好,大部分ES

18、T計(jì)劃都是選用5端進(jìn)行測序的,而且從5端測序有利于將EST拼接成較長的基因序列。 3 3端端 3端mRNA有一20200bp的plyA結(jié)構(gòu),同時(shí)靠近plyA又有特異性的非編碼區(qū),所以從3端測得EST含有編碼的信息較少但研究也表明,10的mRNA3端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記 兩端測序兩端測序 獲得更全面的信息。1. 去除低質(zhì)量的序列(Phred)2. 應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactual sequences)。載體序列載體序列 重復(fù)序列重復(fù)序列 污染序列污染

19、序列 (如核糖體如核糖體RNA、細(xì)菌或其它物種的基因組、細(xì)菌或其它物種的基因組DNA等等)3. 去除其中的鑲嵌克隆。4. 最后去除長度小于100bp的序列。序列前處理序列前處理 (pre-processing)1:線粒體基因(8.76%)3:核糖體基因(0.14%)4:重復(fù)序列(0.10%)5:基因組DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家豬脂肪的EST數(shù)據(jù)分析結(jié)果文庫質(zhì)量檢驗(yàn): Contamination and house-keeping gene expression levell LibraryrRN

20、AMitochondriamRNAG3PDActinTubulinMADSLib 10.25%4.90%0.56%0.29%0.09%0.06%Lib 20.66%0.78%0.71%0.20%0.20%0.00%Lib 31.99%0.18%0.50%0.36%0.19%0.06%Lib 40.09%0.31%0.78%0.76%0.83%0.34%Lib 50.64%0.65%0.76%0.50%1.10%0.00%Lib 60.40%0.22%0.44%0.66%1.04%0.13%Lib 70.20%0.30%0.55%0.59%1.31%0.10%Lib 80.18%0.31%0.9

21、2%0.62%2.25%0.40%Lib 90.35%0.31%0.78%0.17%0.20%0.10%Mean0.53%0.88%0.67%0.46%0.80%0.13%STDEV0.58%1.52%0.16%0.21%0.72%0.14%STDEV/Mean0.240.460.891.08文庫質(zhì)量檢驗(yàn): Clone duplication analysisl Controls are non-normalized human EST libraries constructed by different protocols: Krizman protocol 1 (Lib281) Krizm

22、an protocol 2 (Lib675 and Lib774) LTI non-normalized (Lib6346) Soares non-normalized (Lib185)序列質(zhì)量檢驗(yàn): Length and quality distributionl Quality check process: Head and tail trim (Phred 0.05) Vector masking, repeat masking, contamination masking (CrossMatch) Dropped sequence short than 100 bps after tr

23、im and maskingl 86,136 sequences passed our sequence quality check 41,076 ESTs have more than 80% overall identity to public rice sequences (BLASTN, E-value 1E-15), and thus about 45,000 ESTs may be considered novell Most sequences are of 600 bps and with quality score 40 (error rate 0.0001)鑲嵌克隆的識(shí)別

24、Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.Aligned the contig consensi to rice indica 9311 genome. A forced joint was made if two contigs have overlap region on the genome. (validated by 1045 rice cDNAs)A total of 3,926 contigs were merged resulted

25、in reduction of our contig numbers from 32,489 to 30,222拼接質(zhì)量檢驗(yàn): Mergence checkESTs的聚類和拼接的聚類和拼接 聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:聚類作用:v 產(chǎn)生較長的一致性序列(consensus sequence),用于注釋。v 降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)。v 可以用于檢測選擇性剪切。v 基因表達(dá)譜分析ESTs聚類的數(shù)據(jù)庫主要有三個(gè):聚類的數(shù)據(jù)庫主要有三個(gè):v UniGene ()v TIGR Gene

26、Indices ()v STACK 不嚴(yán)格不嚴(yán)格的和嚴(yán)格的聚類的和嚴(yán)格的聚類 (loose and stringent clustering) loose clustering 產(chǎn)生的一致性序列比較長產(chǎn)生的一致性序列比較長 表達(dá)基因表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高數(shù)據(jù)的覆蓋率高 含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體 每一類中可能包含旁系同源基因每一類中可能包含旁系同源基因(paralogous expressed gene)的轉(zhuǎn)的轉(zhuǎn)錄本錄本 序列的保真度低序列的保真度低 stringent clustering 產(chǎn)生的一致性序列比較短產(chǎn)生的

27、一致性序列比較短 表達(dá)基因表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低數(shù)據(jù)的覆蓋率低 因此所含有的同一基因的不同轉(zhuǎn)錄形式少因此所含有的同一基因的不同轉(zhuǎn)錄形式少 序列保真度高序列保真度高有參照的和無參照的聚類有參照的和無參照的聚類 (Supervised and unsupervised clustering) Supervised clustering 根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列) 聚類。 Unsupervised clustering 沒有根據(jù)參考序列進(jìn)行分類。常用的拼接軟件 Phrap (/UWGC/analys

28、istools/Phrap.cfm) CAP3(Xiaoqiu Huang ,) TIGR_Assember (/software/assembler/)Cluster的連接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以連接在一起。UniGene Unigene 結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。 TIGR Gene Index用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST, 該法得到的一致性序列較短,

29、交替剪切得到的不同的基因?qū)儆诓煌乃饕?。STACK STACK 用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。Clean Short and Tight TIGR-THCUniGeneSTACKLong and Loose 聚類問題l錯(cuò)拼 poly(A) , Linker-to-linker, Gene Families, repeatl漏拼 Low quality, Linker-to-linker, repeatl選擇性剪切 polyAlinker l 05001000150020002500300005001

30、0001500200025003000350040004500500055006000Number of clones sequencedNumber of nonredundant groups 測序飽和度的分析測序飽和度的分析基因在不同文庫中表達(dá)豐度的比較所有表達(dá)基因在不同文庫間的分布所有表達(dá)基因在不同文庫間的分布l6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(3017)基因注釋及功能分類注釋:注釋: 序列聯(lián)配 Blastn, Blastx 蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對) Pfam Interprosca

31、n 較好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配New sequences域的注釋后 續(xù) 分 析常用的基因注釋流程基因注釋基因注釋數(shù)據(jù)庫 注釋上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein da

32、tabase3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注釋。被注釋。 基因功能分類基因功能分類 手工分類手工分類 大部分以大部分以Adams 95Adams 95年的文章中的采用分類體系為標(biāo)準(zhǔn)。年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million

33、 nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 計(jì)算機(jī)批量處理計(jì)算機(jī)批量處理 利用標(biāo)準(zhǔn)基因詞匯體系Gene Ontology,進(jìn)行近似的分類(分子功能、生物學(xué)過程、分子組分)。 ( 基因產(chǎn)物直系同源簇的分析(基因產(chǎn)物直系同源簇的分析(COGCOG) ( () )GO的組織結(jié)構(gòu):定向無環(huán)圖的組織結(jié)構(gòu):定向無環(huán)圖( directed acyclic graphs DAGs)各大數(shù)據(jù)庫中基因或基因產(chǎn)物與各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術(shù)語的對照術(shù)語的對照 classification by molecular f

34、unction012345log10 of ESTs numbertransporter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor activityenzyme regulator activitydefense/immunity protein activitychaperone activitycell adhe

35、sion molecule activitycatalytic activitybindingapoptosis regulator activityantioxidant activity 表1:家豬脂肪組織的已知基因功能分類表2:豬脂肪組織與豬胚胎胸腺組織和豬甲狀腺組織表達(dá)譜的比較參考文獻(xiàn):1、豬脂肪組織表達(dá)序列標(biāo)簽(ESTs)大規(guī)模測序及分析 鄧亞軍等,遺傳學(xué)報(bào),Vol.31, NO.11, 2004 2、兩種家豬心臟組織基因表達(dá)譜的分析 曾燕舞等,遺傳學(xué)報(bào),Vol.31, No.6, 2004 EST的代謝途徑分析(KEGG) http:/www.genome.ad.jp/kegg/

36、后續(xù)分析后續(xù)分析 比較基因組學(xué)分析 基因表達(dá)譜分析 新基因研究 基因可變剪切分析 實(shí)驗(yàn)驗(yàn)證 MicroArray GeneChip RTPCR Northern blotting利用新一代測序儀進(jìn)行轉(zhuǎn)錄組學(xué)的研究 lRNAseq is a powerful tool to detcet the whole transciptome in cell and tissue.lPrevious RNAseq research focus on mRNA, but recent studies prove that part of functional noncoding transctipt and

37、 protein-coding RNAs are lack of polyA.Content of transcriptome1. Genes: expression , alterante splices2. Noncoding RNA: snoRNA, mRNA-like ncRNA, snRNA, some antisense transcripts, pesudogenes, retrotransposon ,and others functional RNAs3. Some repeat elements BackgroundmRNA-seqBackgroundSAGEHashimo

38、to S-i, et al. (2009) PLoS ONETotal RNARibosomal RNA Depletion18S RNA28S RNArRNA-depleted RNAFragmentation of RNALigation to AdaptorcDNA RT and RNaseH DigestionP2 PrimerP1 PrimercDNA AmplificationExcise cDNA 140-200bp(to RNA 50-110nt)Size Selection by PAGE SOLiD emulsion PCRSOLiD SequencingrRNA depl

39、etion ResultResult Mapping strategyJunction database constructionPrimary analysis - distribute reads1. Distribute the unique mapping reads to genes model .2. Gene expression normalization RPKM: quantified transcript levels in reads per kilobase of exon model per million mapped readsC is the number o

40、f mappable reads that fell onto the genes exons,N is total number of mappable reads in experiment. (Normalize between libraries)L is the length of genes exons. (Normalize in library)910CRpkmNLPrimary analysis - distribute reads3. Distribution of random mapping reads according to primary RPKM4. re-ca

41、lculate the RPKM -gene expression value5. Differential expression - IDEG6 Pathway analysis - GenMapp Mapping browser - UCSC Genome browser Function analysis - GO , KEGGMapping resultmRNA-seq ribominusRNA-seqTotal reads92914107140233818Unique mapping2646580628.48%2609238018.61%Multiple mapping4394514

42、4.73%2567128918.31%Junction mapping13351411.44%7717560.55%Ribo mapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple10 random tags71837216.35%1787661069.64%2-10 random tags367614283.65%779467930.36%Unique mapintron391023114.77%647456124.81%exon-exon junction6567912.48%4030

43、311.54%exon1574546959.49%769826329.50%others 615331523.25%1151652544.14%Detected genes by two methods Another distributionRibominus RNAseq provides more even coverage along the gene bodyGenes correlationAnalysislGene expression profile analysislIntron expression analysislNon-coding region idenficati

44、onlAntisense transcripts idenficationlRepeat sequence expression 基因表達(dá)譜的分析 專一比對到外顯子的序列數(shù)109 外顯子長度專一比對的所有序列數(shù)基因表達(dá)豐度: RPKM=7979 三個(gè)時(shí)期表達(dá)基因的聚類分析基因表達(dá)譜的分析8080Annotation for noncoding RNA1. Collection annotation data:Noncoding RNA databaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotation for noncoding RNA2. Int

45、egrate all the known transcription regions and name regions according to database rank.3. Mapping reads to above-mentioned data4. Cluster the remain reads.Non-coding identification (Brain)Non-coding identification (Hela)Noncoding RNA distribution in the annotation databaseNoncoding regions plots Dis

46、tribution of non-coding region (Brain)Distribution of non-coding region (Hela)Powerful detection for some transctiptsPowerful detection for some transctiptsPowerful detection for some transctiptsRepeat region expressionIntron expressionJunction expressionExon skip is more prevalence Antisense transc

47、ripts (Brain)Antisense transcripts (Hela)Antisense transcriptsBrainHelaAntisense transcriptsConclusionlrmRNA-seq identified more novel transcripts from the intergenic, intronic and repeat sequences regions, as the candidate poly A- transcripts lthe reads from rmRNA-seq show a more uniform distributi

48、on across genes compared to those from mRNA-seq, which improves the sensitivity of detection, accuracy of quantification and completeness of splice and exon maps Exon expressionRNA-seq技術(shù)與芯片技術(shù)的比較方法 表達(dá)芯片 Tilling芯片 RNA-seq 與基因組大小相關(guān)分辨率 N/A (人/小鼠35bp) 1bp成本 低 低-高,與芯片密度相關(guān) 高檢測范圍 4個(gè)數(shù)量級 5tags)(5tags) 17320 1

49、7320 1529615296 15912 15912 16569 16569 DNA-chipDNA-chip 11036 11036 11588 11588 11041 11041 11905 11905 中科院北京基因組研究所120rad9+/+rad9+/+HUrad9-/-rad9 -/-HU中科院北京基因組研究所121rad9 +/+rad9+/+HUrad9-/- rad9-/- HU中科院北京基因組研究所122中科院北京基因組研究所123rad9 -/- vs rad9 -/- HU中科院北京基因組研究所124中科院北京基因組研究所125中科院北京基因組研究所126rad9+/

50、+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所127中科院北京基因組研究所128中科院北京基因組研究所129中科院北京基因組研究所130中科院北京基因組研究所131rad9+/+rad9+/+HUrad9-/-rad9-/-HUrad9-/-HUrad9-/-rad9+/+HUrad9+/+中科院北京基因組研究所132pATSSTSSpAGenomic DNATranscription Start SiteExon Polyadenylation中科院北京基因組研究所133rad9 -/-rad9 -/-HU rad9+/+ rad9+/+HUrad9-/-rad9

51、-/-HU rad9+/+ rad9+/+HU rad9+/+ rad9+/+HUrad9 -/-rad9 -/-HU中科院北京基因組研究所134中科院北京基因組研究所135中科院北京基因組研究所136中科院北京基因組研究所137中科院北京基因組研究所138HUHUMES cell(rad9+/+)MES cell (rad9-/-)MES cell(rad9+/+HU)MES cell(rad9-/-HU)中科院北京基因組研究所139文庫文庫 rad9+/+rad9-/- rad9+/+HUrad9-/-HU rad9+/+ rad9+/+HU rad9-/- rad9-/-HU差異基因差異

52、基因59895989 5460546045604560 5591 5591 上調(diào)基因上調(diào)基因55985598 4926 4926 1421 1421 1881 1881 下調(diào)基因下調(diào)基因391391 534 534 31393139 3710 3710 中科院北京基因組研究所140rad9+/+ vs rad9-/- up-regulated genesrad9+/+HU vs rad9-/-HU up-regulated genes中科院北京基因組研究所141中科院北京基因組研究所142l小結(jié)小結(jié)中科院北京基因組研究所143HCPICPLCPrd9 vs non_rd9 (up)absolu

53、te amount0100020003000400050006000rd9 vs non_rd9 (up)relative amout0.00.4HCPICPLCPHCPICPLCPrd9_hu vs non_rd9_hu (up)absolute amount02000400060008000rd9_hu vs non_rd9_hu (up)relative amout0.00.40.5HCPICPLCPrad9+/+ vs rad9-/- up-regulated genesrad9+/+HU vs rad9-/-HU up-regulated gene

54、s中科院北京基因組研究所144 中科院北京基因組研究所145文庫文庫 rad9+/+rad9-/- rad9+/+HUrad9-/-HU rad9+/+ rad9+/+HU rad9-/- rad9-/-HU差異基因差異基因59895989 5460546045604560 5591 5591 上調(diào)基因上調(diào)基因55985598 4926 4926 1421 1421 1881 1881 下調(diào)基因下調(diào)基因391391 534 534 31393139 3710 3710 中科院北京基因組研究所146中科院北京基因組研究所147中科院北京基因組研究所148中科院北京基因組研究所149中科院北京基因

55、組研究所150中科院北京基因組研究所151中科院北京基因組研究所152中科院北京基因組研究所153文庫文庫 rad9+/+rad9-/- rad9+/+HUrad9-/-HU rad9+/+ rad9+/+HU rad9-/- rad9-/-HU差異基因差異基因59895989 5460546045604560 5591 5591 上調(diào)基因上調(diào)基因55985598 4926 4926 1421 1421 1881 1881 下調(diào)基因下調(diào)基因391391 534 534 31393139 3710 3710 中科院北京基因組研究所154中科院北京基因組研究所155中科院北京基因組研究所156中科

56、院北京基因組研究所157中科院北京基因組研究所158中科院北京基因組研究所159l 進(jìn)一步分析這些在內(nèi)含子以及基因間區(qū)域的表達(dá),并且用實(shí)驗(yàn)證明它們的真實(shí)表達(dá)。l 在生化和細(xì)胞水平進(jìn)一步研究rad9的功能,主要的一個(gè)方向是rad9對細(xì)胞表觀遺傳學(xué)的調(diào)控。利用chip-seq方法研究rad9基因敲除后染色質(zhì)的狀態(tài)變化,以及研究rad9基因敲除后DNA水平甲基化狀態(tài)的變化。l 進(jìn)一步挖掘細(xì)胞在毒力的作用下基因表達(dá)譜的變化,構(gòu)建相關(guān)基因的調(diào)控網(wǎng)絡(luò),并研究細(xì)胞在毒力的作用下表觀遺傳學(xué)水平上的變化。Transcriptome de novo assemblyRNA-Seq Denovou Mapping (Bowtile, MAQ) with referenceu Assembly (SOAPdeno, vel

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論