




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
基因轉(zhuǎn)錄組的測定及分析胡松年husn@中國科學院北京基因研究所大規(guī)模表達序列標簽(EST)測定及分析1、什么是EST?2、EST的應用
3、EST序列測定及分析過程什么是ESTs?ESTs(ExpressedSequencetags
)是從已建好的cDNA庫中隨機取出一個克隆,從5’末端或3’末端對插入的cDNA片段進行一輪單向自動測序,所獲得的約60-500bp的一段cDNA序列。大規(guī)模EST序列測定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測定了三種人腦組織共609條EST,宣布
了cDNA大規(guī)模測序的時代的開始代1991年:Okubo等提出大規(guī)模cDNA測序的研究戰(zhàn)略1993年:Venter等創(chuàng)立現(xiàn)在的EST技術1993年:Boguski&Schuler提出以EST為界標的人類基因組轉(zhuǎn)錄圖譜計劃
●●93年前ESTs數(shù)據(jù)收錄于GenBank,EBI和DDBJ?!?993年NCBI(NationalCenterofBiotechnologyInformation)建立了一個專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。●95年中期GenBank中EST的數(shù)目超過了非EST的數(shù)目?!瘳F(xiàn)在GenBank中EST的數(shù)目已經(jīng)超過了三千五百萬,約占GenBank中序列數(shù)的60%.EST數(shù)量排名前10的物種Organism ESTsHomosapiens(human) 8,301,471Musmusculus+domesticus(mouse)4,852,146Zeamays(maize) 2,018,798Bostaurus(cattle) 1,620,962Arabidopsisthaliana(thalecress) 1,559,485Daniorerio(zebrafish) 1,527,299Glycinemax(soybean) 1,481,930Xenopustropicalis(westernclawedfrog)1,422,983Oryzasativa(rice) 1,271,375Cionaintestinalis 1,249,110截止到2010年3月19日
EST相關數(shù)據(jù)庫
儲存EST原始數(shù)據(jù)的一級數(shù)據(jù)庫◆EMBL◆GenBank(dbEST)◆DDBJ◆UniGene(/UniGene)◆TIGRGeneIndices(/tdb/tgi/)◆
STACK(http://www.sanbi.ac.za/Dbases.html)對EST進行聚類拼接的二級數(shù)據(jù)庫EST的應用1ESTs與基因識別
ESTs已經(jīng)被廣泛的應用于基因識別,因為ESTs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguskietal.,1994).●在同一物種中搜尋基因家族的新成員(paralogs)?!裨诓煌锓N間搜尋功能相同的基因(orthologs)?!褚阎虻牟煌羟心J降乃褜??!咀ⅲ翰贿^很難確定一個新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組DNA序列(Wolfsbergetal.,1997)】EST的應用2ESTs與基因圖譜的繪制
EST可以借助于序列標簽位點(sequence-taggedsites)用于基因圖譜的構(gòu)建.STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經(jīng)PCR檢測的基因組中唯一的一段序列。來自mRNA的3’非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點主要包括:●由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同;●與編碼區(qū)具有很強的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個基因與編碼序列關系非常緊密的相似基因家族成員分開。(JamesSikela等,1991年)EST的應用3ESTs與基因預測
由于EST來源于cDNA,因此每一條EST均代表了文庫建立時所采樣品特定發(fā)育時期和生理狀態(tài)下的一個基因的部分序列。使用合適的比對參數(shù),大于90%的已經(jīng)注釋的基因都能在EST庫中檢測到(Baileyetal.,1998)。ESTs可以做為其它基因預測算法的補充,因為它們對預測基因的交替剪切和3‘非翻譯區(qū)很有效。
ESTs與SNPs
來自不同個體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。應注意區(qū)別真正的SNPs和由于測序錯誤(ESTs為單向測序得來,錯誤率可達2%)而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準確性?!駥λl(fā)現(xiàn)的SNPs進行實驗驗證。EST的應用4EST的應用5利用ESTs大規(guī)模分析基因表達水平因為EST序列是從某以特定的組織的cDNA文庫中隨機測序而得到,所以可以用利用未經(jīng)標準化和差減雜交的cDNA文庫EST分析特定組織的基因表達譜。標準化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應基因表達的水平?!?/p>
CGAP
為研究癌癥的分子機理,美國國家癌癥研究所NCI的癌癥基因組解析計劃(CancerGenomeAnatomyProject,CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標準化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達的差異,如:●
DigitalGeneExpressionDisplayer(DGED)●
cDNAxProfiler◆基因表達系列分析(SerialAnalysisofGeneExpression,SAGE)
基因表達系列分析是一種用于定量,高通量基因表達分析的實驗方法(Velculescuetal.,1995)。SAGE的原理就是分離每個轉(zhuǎn)錄本的特定位置的較短的單一的序列標簽(約9-21個堿基對),這些短的序列被連接、克隆和測序,特定的序列標簽的出現(xiàn)次數(shù)就反應了對應的基因的表達豐度。◆
DNA微陣列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達的技術,具有高通量分析的優(yōu)點。在許多情況下,cDNA芯片的探針來源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探針的設計。EST技術流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化轉(zhuǎn)化效率問題(基因芯片)文庫構(gòu)建技術已經(jīng)成熟測序采樣問題(SAGE)測序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成Serialanalysisofgeneexpression(SAGE)技術流程反轉(zhuǎn)錄酶切連接測序單條測序==對30-40條EST測序分析低豐度表達基因、基因表達量分析、新基因、上下調(diào)控基因鑒定、表達的復合效應實驗步驟較長要求較高Serialanalysisofgeneexpression(SAGE)
技術流程SAGE文庫的構(gòu)建:NlaIII(錨定酶)酶切,該酶能夠識別CATG位點并在其3′端進行酶切;鏈霉素包被的磁珠進行親和純化;將cDNA分為A和B兩部分,分別連接接頭A或接頭B,每一種接頭都含有CATG四堿基突出端、限制性內(nèi)切酶BsmFI的識別序列和一個PCR引物序列(引物A或B);用標簽酶BsmFI酶切,該酶在其識別位點3′端下游的14-17bp處進行酶切,產(chǎn)生連有接頭的短cDNA片段;混合并連接兩個短cDNA片段,構(gòu)成雙標簽(ditag)后,用引物A和B進行PCR擴增;錨定酶NlaIII切割擴增產(chǎn)物,抽提SAGE雙標簽片段;并用T4DNA連接酶連接成多聚體(concaterner);選擇合適的片斷長度,克隆進載體;得到的克隆插入序列由一系列的20-22bp長的SAGE雙標簽組成,每兩個雙標簽中間由4bp的NlaIII酶切位點分隔開。SAGE文庫的測序:單向測序。 Serialanalysisofgeneexpression(SAGE)
分析流程在雙標簽多聚體序列中定位NlaIII酶切位點(即CATG);提取CATG位點之間的20-22bp長的雙標簽序列;去除重復出現(xiàn)的雙標簽序列,包括反向互補方向上重復的雙標簽序列;截取每個雙標簽序列最靠近兩頭末端的10個堿基,即為標簽序列;去除與接頭序列相對應的標簽(即TCCCCGTACA和TCCCTATTAA),同時去除含有不確定堿基(即除A、C、T、G四種堿基以外的堿基)的標簽;計算每個標簽的出重復次數(shù),以列表的形式給出一個包含每個標簽及其表達豐度的報告。
基因芯片或微陣列技術流程….….Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標記雜交反轉(zhuǎn)錄EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表達量矩陣G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的基因)連接,轉(zhuǎn)化Ricegenome-wideDNAchip(60,000+預測基因)
果蠅基因芯片…原位合成
幾種大規(guī)模分析基因表達水平的方法的比較
◆ESTs很短,沒有給出完整的表達序列;◆低豐度表達基因不易獲得?!粲捎谥皇且惠啘y序結(jié)果,出錯率達2%-5%;◆有時有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染;◆有時出現(xiàn)鑲嵌克?。弧粜蛄械娜哂?,導致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足
技術路線cDNA文庫構(gòu)建隨機測序得到EST序列讀取與處理序列拼接和注釋表達豐度和功能分析表達譜特征分析表達量在不同文庫中的分布表達譜的比較分析差異表達基因鑒定與分類功能分析作用機理分析Q-PCR驗證
EST軟件平臺EST序列庫/序列的質(zhì)量檢查測序量監(jiān)控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發(fā)現(xiàn)全長基因研究表達基因概況的主要實驗手段(DNAchip、proteomics的先驅(qū))功能分類表達量分析SAGE的先驅(qū)交替剪接檢測EST特有信息cDNA文庫構(gòu)建◆
非標準化的cDNA文庫的構(gòu)建。(可用于基因表達量的分析)◆
經(jīng)標準化或扣除雜交處理的cDNA文庫。(富集表達豐度較低的基因)◆
Oligod(T)cDNA文庫。(非翻譯區(qū)由于不含有編碼序列,與編碼區(qū)保守序列相比所受到的選擇壓力比較小,因而其多態(tài)性程度比較高,便于多態(tài)性位點的選擇以用于遺傳圖譜的構(gòu)建。)◆隨機引物cDNA文庫。(所獲得的EST在基因功能的鑒定時具有更多的信息含量,并且在構(gòu)建EST數(shù)據(jù)庫時更有優(yōu)勢,同時有利于利用EST數(shù)據(jù)庫聚類完整的基因和閱讀框的尋找,便于利用更敏感的蛋白質(zhì)比較來尋找同源基因。)cDNA文庫構(gòu)建常見問題RNA得率低mRNA分離效率低cDNA產(chǎn)物少原因:多糖、多酚、內(nèi)源性核酸蛋白酶、miRNA等原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚類等次生代謝產(chǎn)物在RNA分離時,經(jīng)常與RNA共沉降,導致RNA丟失?;?qū)е路蛛x后的RNA嚴重不純,影響mRNA分離的得率。內(nèi)源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降解,轉(zhuǎn)錄后的DNA接頭無法連接,是cDNA得率低的原因之一。miRNA的存在導致mRNA的降解測序方向的選擇根據(jù)不同的實驗目的選擇不同的測序方向:◆5’端
5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達時用5’端EST較好,大部分EST計劃都是選用5’端進行測序的,而且從5’端測序有利于將EST拼接成較長的基因序列。◆3’端
3’端mRNA有一20-200bp的plyA結(jié)構(gòu),同時靠近plyA又有特異性的非編碼區(qū),所以從3’端測得EST含有編碼的信息較少.但研究也表明,10%的mRNA3’端有重復序列,這可以作為SSR標記;非編碼區(qū)有品種的特異性,可以作為STS標記.◆兩端測序
獲得更全面的信息。1.
去除低質(zhì)量的序列(Phred)2.
應用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達的基因的贗象序列(artifactualsequences)?!褫d體序列(/repository/vector)
●重復序列(RepBase,)●污染序列
(如核糖體RNA、細菌或其它物種的基因組DNA等)3.
去除其中的鑲嵌克隆。4.
最后去除長度小于100bp的序列。序列前處理(pre-processing)1:線粒體基因(8.76%)3:核糖體基因(0.14%)4:重復序列(0.10%)5:基因組DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家豬脂肪的EST數(shù)據(jù)分析結(jié)果文庫質(zhì)量檢驗:Contaminationandhouse-keepinggeneexpressionlevel
文庫質(zhì)量檢驗:CloneduplicationanalysisControlsarenon-normalizedhumanESTlibrariesconstructedbydifferentprotocols:Krizmanprotocol1(Lib281)Krizmanprotocol2(Lib675andLib774)LTInon-normalized(Lib6346)Soaresnon-normalized(Lib185)序列質(zhì)量檢驗:LengthandqualitydistributionQualitycheckprocess:Headandtailtrim(Phred0.05)Vectormasking,repeatmasking,contaminationmasking(CrossMatch)Droppedsequenceshortthan100bpsaftertrimandmasking86,136sequencespassedoursequencequalitycheck41,076ESTshavemorethan80%overallidentitytopublicricesequences(BLASTN,E-value1E-15),andthusabout45,000ESTsmaybeconsiderednovelMostsequencesareof600bpsandwithqualityscore40(errorrate0.0001)鑲嵌克隆的識別?Back-to-backpoly(A)+tails.?
Linker-to-linkerinmiddleofthesequence.?
Blastn/Blastxsearch.Alignedthecontigconsensitoriceindica9311genome.Aforcedjointwasmadeiftwocontigshaveoverlapregiononthegenome.(validatedby1045ricecDNAs)Atotalof3,926contigsweremergedresultedinreductionofourcontignumbersfrom32,489to30,222拼接質(zhì)量檢驗:MergencecheckESTs的聚類和拼接
聚類的目的就是將來自同一個基因或同一個轉(zhuǎn)錄本的具有重疊部分(over-lapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯誤數(shù)據(jù)??梢杂糜跈z測選擇性剪切。基因表達譜分析ESTs聚類的數(shù)據(jù)庫主要有三個:
UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)
(ESTclusteringtutorial,httP://www.sanbi.ac.za)不嚴格的和嚴格的聚類(looseandstringentclustering)◆looseclustering●產(chǎn)生的一致性序列比較長●表達基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因(paralogousexpressedgene)的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高
(ESTclusteringtutorial,httP://www.sanbi.ac.za)有參照的和無參照的聚類(Supervisedandunsupervisedclustering)◆Supervisedclustering
根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列)聚類?!?/p>
Unsupervisedclustering
沒有根據(jù)參考序列進行分類。
常用的拼接軟件◆Phrap(/UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang
,huang@)◆TIGR_Assember(/software/assembler/)Cluster的連接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以連接在一起。UniGene◆Unigene結(jié)合有指導的和無指導的方法,而且在聚類過程中使用了不同水平的嚴格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。TIGRGeneIndex◆TIGRGeneIndex用的是有嚴格的和有指導的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST,該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕TACK◆
STACK用不嚴格的和無指導的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。CleanShortandTightTIGR-THCUniGeneSTACKLongandLoose聚類問題錯拼poly(A),Linker-to-linker,GeneFamilies,repeat漏拼Lowquality,Linker-to-linker,repeat選擇性剪切polyAlinker
測序飽和度的分析基因在不同文庫中表達豐度的比較所有表達基因在不同文庫間的分布
6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(3017)基因注釋及功能分類注釋:◆序列聯(lián)配
Blastn,Blastx◆蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對)PfamInterproscan
較好匹配InterproScanNtBlastnESTsequencesNrBlastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配Newsequences域的注釋后續(xù)分析常用的基因注釋流程
基因注釋數(shù)據(jù)庫注釋上的基因所占比例TIGROGI(ver17)712694.3TIGRPseudoMolecule(ver5)615181.4NCBIUNIGENE(ver62)671488.8NCBInrproteindatabase583177.293-11BGI_Scan585477.5Uniprotproteindatabase362848.0TIGRtoGO456560.4KEGGAutomaticAnnotationServer94512.5一共有7250(95.9%)的unigenes被注釋。
基因功能分類◆手工分類大部分以Adams95年的文章中的采用分類體系為標準。【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計算機批量處理利用標準基因詞匯體系GeneOntology,進行近似的分類(分子功能、生物學過程、分子組分)。(/)◆
基因產(chǎn)物直系同源簇的分析(COG)
(/COG/)
GO的組織結(jié)構(gòu):定向無環(huán)圖(directedacyclicgraphs[DAGs])各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術語的對照其它分類系統(tǒng)與GO的對照表
表1:家豬脂肪組織的已知基因功能分類表2:豬脂肪組織與豬胚胎胸腺組織和豬甲狀腺組織表達譜的比較參考文獻:1、豬脂肪組織表達序列標簽(ESTs)大規(guī)模測序及分析鄧亞軍等,遺傳學報,Vol.31,NO.11,20042、兩種家豬心臟組織基因表達譜的分析曾燕舞等,遺傳學報,Vol.31,No.6,2004
EST的代謝途徑分析(KEGG)
http://www.genome.ad.jp/kegg/
后續(xù)分析◆比較基因組學分析◆基因表達譜分析◆新基因研究◆基因可變剪切分析◆實驗驗證
?
MicroArray
?GeneChip
?RT-PCR
?Northernblotting利用新一代測序儀進行轉(zhuǎn)錄組學的研究
RNAseqisapowerfultooltodetcetthewholetransciptomeincellandtissue.PreviousRNAseqresearchfocusonmRNA,butrecentstudiesprovethatpartoffunctionalnoncodingtransctiptandprotein-codingRNAsarelackofpolyA.ContentoftranscriptomeGenes:expression,alterantesplicesNoncodingRNA: snoRNA,mRNA-likencRNA,snRNA,someantisensetranscripts,pesudogenes,retrotransposon,andothersfunctionalRNAs3. Somerepeatelements
BackgroundmRNA-seqBackgroundSAGEHashimotoS-i,etal.(2009)PLoSONETotalRNARibosomalRNADepletion18SRNA28SRNArRNA-depletedRNAFragmentationofRNALigationtoAdaptorcDNA
RTandRNaseHDigestionP2PrimerP1PrimercDNAAmplificationExcisecDNA~140-200bp(toRNA~50-110nt)SizeSelectionbyPAGE
SOLiDemulsionPCRSOLiDSequencingrRNAdepletionResultResult
MappingstrategyJunctiondatabaseconstructionPrimaryanalysis>distributereadsDistributetheuniquemappingreadstogenesmodel.GeneexpressionnormalizationRPKM:
quantifiedtranscriptlevelsinreadsperkilobaseofexonmodelpermillionmappedreadsCisthenumberofmappablereadsthatfellontothegene’sexons,Nistotalnumberofmappablereadsinexperiment.(Normalizebetweenlibraries)Listhelengthofgene’sexons.(Normalizeinlibrary)Primaryanalysis>distributereadsDistributionofrandommappingreadsaccordingtoprimaryRPKMre-calculatetheRPKM geneexpressionvalueDifferentialexpressionIDEG6PathwayanalysisGenMapp MappingbrowserUCSCGenomebrowserFunctionanalysisGO,KEGGMappingresultmRNA-seqribominusRNA-seqTotalreads92914107140233818Uniquemapping2646580628.48%2609238018.61%Multiplemapping43945144.73%2567128918.31%Junctionmapping13351411.44%7717560.55%Ribomapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple>10randomtags71837216.35%1787661069.64%2-10randomtags367614283.65%779467930.36%Uniquemapintron391023114.77%647456124.81%exon-exonjunction6567912.48%4030311.54%exon1574546959.49%769826329.50%others615331523.25%1151652544.14%DetectedgenesbytwomethodsAnotherdistributionRibominusRNAseqprovidesmoreevencoveragealongthegenebodyGenescorrelationAnalysisGeneexpressionprofileanalysisIntronexpressionanalysisNon-codingregionidenficationAntisensetranscriptsidenficationRepeatsequenceexpression
基因表達譜的分析專一比對到外顯子的序列數(shù)×109外顯子長度×專一比對的所有序列數(shù)基因表達豐度:RPKM=79
三個時期表達基因的聚類分析基因表達譜的分析80AnnotationfornoncodingRNA1.Collectionannotationdata:NoncodingRNAdatabaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotationfornoncodingRNA2.Integratealltheknowntranscriptionregionsandnameregionsaccordingtodatabaserank.3.Mappingreadstoabove-mentioneddata4.Clustertheremainreads.Non-codingidentification(Brain)Non-codingidentification(Hela)NoncodingRNAdistributionintheannotationdatabaseNoncodingregions’plots
Distributionofnon-codingregion(Brain)Distributionofnon-codingregion(Hela)PowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsRepeatregionexpressionIntronexpressionJunctionexpressionExonskipismoreprevalence
Antisensetranscripts(Brain)Antisensetranscripts(Hela)AntisensetranscriptsBrainHelaAntisensetranscriptsConclusionrmRNA-seqidentifiedmorenoveltranscriptsfromtheintergenic,intronicandrepeatsequencesregions,asthecandidatepolyA-transcriptsthereadsfromrmRNA-seqshowamoreuniformdistributionacrossgenescomparedtothosefrommRNA-seq,whichimprovesthesensitivityofdetection,accuracyofquantificationandcompletenessofspliceandexonmaps
ExonexpressionRNA-seq技術與芯片技術的比較方法 表達芯片 Tilling芯片 RNA-seq
與基因組大小相關分辨率 N/A (人/小鼠≥35bp)1bp成本 低 低-高,與芯片密度相關高檢測范圍<4個數(shù)量級 <2數(shù)量級與測序量及實際表達量相關靈敏度中 低 高新轉(zhuǎn)錄本不可以有限可以可變剪接不可以有限可以可變調(diào)控區(qū)不可以 可以可以反義轉(zhuǎn)錄本 N/AN/A可以SNPs,突變有限有限可以等位表達差異 有限有限可以數(shù)據(jù)量0.01-0.05Gb 0.1-1Gb 1-15Tb生物信息分析 低 高 極高引自Wilhelm,B.等,2009BrainHelaRNA-seq的優(yōu)勢不局限于已知的基因組序列信息,適用于未知基因組序列的物種的高通量轉(zhuǎn)錄組研究相對于芯片技術,背景信號值低,沒有檢測上限,對于基因表達譜有非常寬的檢測范圍。在有內(nèi)參的情況下,在定量方面顯示出了較高的準確度和可重復性。不需要克隆的步驟,操作簡單,需要的樣本量少,可以在單細胞的水平上進行表達譜分析通量高,成本比Tillingarray或者大規(guī)模的EST測序要低。RNA-seq的挑戰(zhàn)文庫構(gòu)建過程中大片段的RNA必須經(jīng)過片段化處理,會引入一定的偏倚。PCR會造成表達量的變化。海量短序列數(shù)據(jù)的比對或拼接情況復雜,對重復序列和多匹配序列的精確定位存在明顯問題。高等真核生物可變剪接和反式剪接的鑒定仍有相當?shù)恼`差。測序深度的確定因物種、器官、組織、時期而變,很難有統(tǒng)一公式直接計算。
RNA-seqPipelineRNAmiRNA
StudyofthefunctionofRAD9inmouseEScellsbyusingSOLiDtranscriptomeprofiling中科院北京基因組研究所114rad9基因的功能TSSpArad9(6.45kb)19qA19qB19qC119qC219qC319qD119qD219qD3chr19PCNAdomainRAD9(389aa)中科院北京基因組研究所115Functionalofrad9rad9基因功能
DNA損傷修復細胞周期調(diào)控細胞周期檢驗點細胞凋亡基因表達調(diào)控中科院北京基因組研究所116
HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因組研究所117(一)RNA-seq數(shù)據(jù)的注釋文庫
rad9+/+rad9+/+HU
rad9-/-
rad9-/-HU原始序列數(shù)124844521741453077497676771785677專一比對到基因組的序列數(shù)19841883(15.89%)12559817(16.94%)15931603
(21.25%)16295605
(22.7%)多處比對到基因組的序列數(shù)11122526(8.91%)13882945(18.73%)13329492(17.78%)20246560
(28.21%)比對到外顯子連接處序列數(shù)357399
(0.29%)262490
(0.35%)421659
(0.57%)451795
(0.62%)整體的注釋率31321808(25.09%)26705252(36.02%)29682754(39.60%)36993960(51.53%)RNA-seq的數(shù)據(jù)注釋結(jié)果中科院北京基因組研究所118RNA-seq數(shù)據(jù)的注釋(續(xù))專一比對到基因組的序列在基因區(qū)和基因間區(qū)的分布rad9+/+rad9-/-rad9-/-HUrad9+/+
HU
中科院北京基因組研究所119(二)基因表達譜的分析文庫
rad9+/+
rad9+/+HU
rad9-/-rad9-/-HURNA-seq(>5tags)17320
152961591216569
DNA-chip11036
1158811041
11905表達基因的種類中科院北京基因組研究所120基因表達譜的分析(續(xù))RNA-seq與DNA-chip對基因檢測能力分析rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所121基因表達譜的分析(續(xù))RNA-seq與DNA-chip對檢測到的基因表達量的分布rad9
+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所122基因表達譜的分析(續(xù))RNA-seq與DNA-chip對基因表達譜檢測的相關性分析中科院北京基因組研究所123基因表達譜的分析(續(xù))RNA-seq與DNA-chip對差異基因檢測的相關性分析rad9
-/-vsrad9
-/-HU中科院北京基因組研究所124(三)內(nèi)含子區(qū)域表達的分析基因的外顯子和內(nèi)含子表達豐度的相關性分析中科院北京基因組研究所125內(nèi)含子區(qū)域表達的分析(續(xù))基因內(nèi)含子區(qū)域有明顯表達舉例中科院北京基因組研究所126(四)基因間區(qū)域表達的分析基因間表達區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所127基因間區(qū)域表達的分析(續(xù))基因5’UTR和3’UTR延伸區(qū)域的表達中科院北京基因組研究所128基因間區(qū)域表達的分析(續(xù))基因間表達區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所129基因間區(qū)域表達的分析(續(xù))Non-codingRNA的表達中科院北京基因組研究所130基因間區(qū)域表達的分析(續(xù))基因間表達區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所131基因間區(qū)域表達的分析(續(xù))新鑒定的基因間區(qū)轉(zhuǎn)錄位點在四個文庫中的比較rad9+/+rad9+/+HUrad9-/-rad9-/-HUrad9-/-HUrad9-/-rad9+/+HUrad9+/+中科院北京基因組研究所132(五)基因可變剪切的分析pATSSTSSpAGenomicDNATranscriptionStartSiteExonPolyadenylation中科院北京基因組研究所133基因可變剪切的分析(續(xù))在四個文庫中外顯子連接形式的鑒定rad9-/-rad9
-/-HU
rad9+/+
rad9+/+HUrad9-/-rad9-/-HUrad9+/+rad9+/+HUrad9+/+
rad9+/+HUrad9-/-rad9
-/-HU中科院北京基因組研究所134基因可變剪切的分析(續(xù))在四個文庫中外顯子連接形式的鑒定以及比較中科院北京基因組研究所135(六)反義轉(zhuǎn)錄本的分析
基因具有反義轉(zhuǎn)錄本舉例中科院北京基因組研究所136反義轉(zhuǎn)錄本的分析(續(xù))基因正義和反義表達豐度的相關性分析中科院北京基因組研究所137反義轉(zhuǎn)錄本的分析(續(xù))反義轉(zhuǎn)錄本在基因組上分布的偏好性中科院北京基因組研究所138(七)差異表達基因的分析HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因組研究所139差異表達基因的分析(續(xù))文庫
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差異基因5989
546045605591
上調(diào)基因5598
492614211881
下調(diào)基因391
5343139
3710文庫間差異基因的比較中科院北京基因組研究所140差異表達基因的分析(續(xù))rad9基因敲除后上下調(diào)基因的功能分類(GO)
rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因組研究所141中科院北京基因組研究所142差異表達基因的分析(續(xù))小結(jié)通過rad9+/+與rad9-/-,rad9+/+HU與rad9-/-HU基因表達譜的比較,我們得知rad9
敲除后的MES細胞大部分基因表達活性增強,而這種基因組整體轉(zhuǎn)錄水平的上調(diào),可能是受到表觀遺傳學的調(diào)控。根據(jù)這個結(jié)果,我們認為rad9基因一個重要新功能是參與表觀遺傳學的調(diào)控。中科院北京基因組研究所143差異表達基因的分析(續(xù))上調(diào)基因與CpGisland
的相關性分析rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因組研究所144差異表達基因的分析(續(xù))HU對細胞毒性作用HU是一種用于治療骨髓白血病和實體瘤的核糖核苷酸還原酶(RibonucleotideReductase,RR)抑制劑類抗腫瘤藥物(MayhewCN,etal.2005)。通過抑制RR的活性使得細胞在S期DNA復制前期不能夠獲得足夠的游離的脫氧核苷酸,觸發(fā)復制期檢驗點,進而使細胞靜止在S期。HU通過產(chǎn)生的過氧化物和硝基化物引起二價銅介導的DNA堿基損傷(8-羥基-2′脫氧鳥甘酸)(O‘DonovanP,etal.2005)。
中科院北京基因組研究所145差異表達基因的分析(續(xù))文庫
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差異基因5989
546045605591
上調(diào)基因5598
492614211881
下調(diào)基因391
5343139
3710文庫間差異基因的比較中科院北京基因組研究所146中科院北京基因組研究所147中科院北京基因組研究所148中科院北京基因組研究所149
差異表達基因的分析(續(xù))
小結(jié)通過比較rad9+/+和rad9+/+HU基因表達譜的變化,我們得知當細胞用HU處理后,基因整體的轉(zhuǎn)錄水平下調(diào),細胞可能處于一種停滯的狀態(tài)。而在這個時候,一些抵抗外界壓力和DNA損傷修復的基因表達活性增強,另外還包括一些抑制細胞周期和細胞凋亡的基因,這些基因需要使細胞停滯下來進行修復活動。中科院北京基因組研究所150轉(zhuǎn)錄的抑制中科院北京基因組研究所151轉(zhuǎn)錄的抑制中科院北京基因組研究所152中科院北京基因組研究所153差異表達基因的分析(續(xù))文庫
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差異基因5989
546045605591
上調(diào)基因5598
492614211881
下調(diào)基因391
5343139
3710文庫間差異基因的比較中科院北京基因組研究所154中科院北京基因組研究所155中科院北京基因組研究所156中科院北京基因組研究所157
差異表達基因的分析(續(xù))
小結(jié)通過比較rad9-/-和rad9-/-HU基因表達譜的變化,我們得知當rad9敲除后的細胞用HU處理后,基因整體的轉(zhuǎn)錄水平仍處于下調(diào)狀態(tài)。但是,在這個時候,細胞周期進行失去了控制,細胞沒有時間進行修復活動,從而細胞凋亡活動增加。中科院北京基因組研究所158結(jié)論對于真核生物轉(zhuǎn)錄組的研究,以第二代測序技術為基礎的RNA-seq方法是一個更加敏感的方法,通過深度的取樣,它不僅可以更加真實的反映基因的表達譜,并且可以幫助我們進一步了解真核生物轉(zhuǎn)錄組的復雜性,包括一些non-codingRNAs,反義轉(zhuǎn)錄本,基因的可變剪切的鑒定等等。數(shù)據(jù)表明了rad9基因除了對細胞周期以及細胞凋亡的調(diào)控作用,可能一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高分秘技2024年CPMM試題及答案
- 國際冷鏈物流解決方案試題與答案
- 2017年遼寧省鞍山市中考化學試卷(解析)
- 餐飲美學基礎 課件全套 模塊1-4 餐飲美學概論 -餐廳民俗美學
- 真人分享2024年CPMM考試經(jīng)驗試題及答案
- 燙傷急救與護理課件
- 植物對環(huán)境變化的適應試題及答案
- 江蘇揚州歷年中考作文題(2001-2024)
- 高效學習2024年CPMM的法門試題及答案
- SCMP全真模擬試題及答案分享
- 腹股溝疝區(qū)域神經(jīng)阻滯(“麻醉”文檔)共30張
- MSBR工藝設計(含計算書)
- 久其軟件使用
- 配電房檢查保養(yǎng)記錄表
- 公安派出所建筑外觀形象設計規(guī)范1
- 一年級語文部編版上冊《ie üe er》課件
- 人民幣教具正反面完美打印版
- 勤奮與懶惰小學心理健康課教案——告別懶惰.doc
- 消費者權(quán)益保護法培訓課件
- 實現(xiàn)秸稈發(fā)酵飼料產(chǎn)業(yè)化--秸稈發(fā)酵飼料技術原理與應用示范
- 膜分離工程第二章:膜材料與制備
評論
0/150
提交評論