




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、大規(guī)模表達序列標(biāo)簽(EST)測定及分析中山大學(xué)生科院第1頁,共54頁。主要內(nèi)容什么是EST?EST的應(yīng)用 EST序列測定及分析過程實例:家豬腦組織EST分析第2頁,共54頁。ESTs的來源 上世紀(jì)80年代,對cDNA序列進行大規(guī)模測序的想法就曾提出,但對此一直存在爭論,有人認(rèn)為這種方法能發(fā)現(xiàn)成千上萬的新基因;而反對者則認(rèn)為cDNA序列缺少重要的基因調(diào)控區(qū)域的信息。90年代初Graig Venter 提出了EST的概念,并測定了609條人腦組織的EST,宣布了cDNA大規(guī)模測序的時代的開始 (Adams et al., 1991)。第3頁,共54頁。 93年前ESTs數(shù)據(jù)收錄于GenBank,
2、EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一個專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。第4頁,共54頁。什么是 ESTs ?ESTs(Expressed Sequence tags )是從已建好的cDNA庫中隨機取出一個克隆,從5末端或3末端對插入的cDNA片段進行一輪單向自動測序,所獲得的約60-500bp的一段cDNA序列。第5頁,共54頁。ESTs與基因識別 ESTs已經(jīng)被廣泛的應(yīng)用于基因識別,因為ESTs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜
3、尋到新的基因(Boguski et al., 1994). 在同一物種中搜尋基因家族的新成員(paralogs)。 在不同物種間搜尋功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜尋?!咀ⅲ翰贿^很難確定一個新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組DNA序列(Wolfsberg et al., 1997)】第6頁,共54頁。ESTs與基因圖譜的繪制 EST可以借助于序列標(biāo)簽位點(sequence-tagged sites)用于基因圖譜的構(gòu)建. STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經(jīng)PCR檢測的基因組中唯一的一段序列。來自m
4、RNA的3非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點主要包括: 由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同; 與編碼區(qū)具有很強的保守性不同,3UTRs序列的保守性較差,因此很容易將單個基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。 (James Sikela等,1991年)GeneMap 96 定位了16,000個基于基因的STS(Schuler et al., 1996);GeneMap 98 定位了30,000個基于基因的STS(Deloukas et al., 1998),而且基因圖譜隨著STS的定位正在不斷的更新中。第7頁,共54
5、頁。ESTs與基因預(yù)測 由于EST來源于cDNA,因此每一條EST均代表了文庫建立時所采樣品特定發(fā)育時期和生理狀態(tài)下的一個基因的部分序列。使用合適的比對參數(shù),大于90的已經(jīng)注釋的基因都能在EST庫中檢測到(Bailey et al., 1998)。ESTs可以做為其它基因預(yù)測算法的補充,因為它們對預(yù)測基因的交替剪切和3 非翻譯區(qū)很有效。第8頁,共54頁。ESTs與SNPs 來自不同個體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs (Buetow et al., 1999;Garg et al., 1999; Mar
6、th et al., 1999; Picoult-Newberg et al., 1999) 。 應(yīng)注意區(qū)別真正的SNPs和由于測序錯誤( ESTs為單向測序得來,錯誤率可達2)而引起的本身不存在的SNPs。解決這一問題可以通過: 提高ESTs分析的準(zhǔn)確性。 對所發(fā)現(xiàn)的SNPs進行實驗驗證。第9頁,共54頁。利用ESTs大規(guī)模分析基因表達水平 因為EST序列是從某以特定的組織的cDNA文庫中隨機測序而得到,所以可以用利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫EST分析特定組織的基因表達譜。標(biāo)準(zhǔn)化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達的水平。 CGAP 為研究癌癥的分子機理,美
7、國國家癌癥研究所NCI的癌癥基因組解析計劃(Cancer Genome Anatomy Project , CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達的差異, 如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表達系列分析(Serial Analysis of Gene Expression, SAGE) 基因表達系列分析是一種用于定量,高通量基因表達分析的實驗方法(Vel
8、culescu et al., 1995)。SAGE的原理就是分離每個轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9-14個堿基對),這些短的序列被連接、克隆和測序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對應(yīng)的基因的表達豐度。 DNA微陣列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達的技術(shù),具有高通量分析的優(yōu)點。在許多情況下,cDNA芯片的探針來源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探針的設(shè)計。第10頁,共54頁。Serial analysis of gene expression (SAGE) 技術(shù)流程反
9、轉(zhuǎn)錄酶切連接測序單條測序?qū)?040條EST測序分析由于采樣量大大提高,可對低表達基因進行分析:基因表達量分析、尋找新基因等等實驗步驟較長要求較高第11頁,共54頁?;蛐酒蛭㈥嚵屑夹g(shù)流程.Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標(biāo)記雜交反轉(zhuǎn)錄EST分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表達量矩陣G1,G3,G5G2,G4G6,G9利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的基因)連接,轉(zhuǎn)化 Rice genome-wide DNA chip (60,000+預(yù)測基因) 果蠅基因芯片原位合成 第12頁,共54頁。幾種
10、大規(guī)模分析基因表達水平的方法的比較第13頁,共54頁。 ESTs很短,沒有給出完整的表達序列; 低豐度表達基因不易獲得。 由于只是一輪測序結(jié)果,出錯率達2%-5%; 有時有載體序列和核外mRNA來源的cDNA污染或是基因組 DNA的污染; 有時出現(xiàn)鑲嵌克??; 序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足第14頁,共54頁。EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化轉(zhuǎn)化效率問題(基因芯片)文庫構(gòu)建技術(shù)已經(jīng)成熟測序采樣問題(SAGE)測序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成第15頁,共54頁。一、cDNA文庫構(gòu)建 非標(biāo)準(zhǔn)化的cDNA文庫的構(gòu)建。(可用于基因表達量的分析)
11、經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫。(富集表達豐度較低的基因) OligoT cDNA文庫。 隨機引物cDNA文庫。第16頁,共54頁。cDNA文庫的構(gòu)建及其均一化扣除雜交處理For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library)Reference: Bon
12、aldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791-806. 第17頁,共54頁。扣除雜交技術(shù)的發(fā)展 扣除雜交技術(shù)最早應(yīng)用是在20世紀(jì)80年代初,當(dāng)時的目的是為了構(gòu)建 非洲爪蟾的胚囊 cDNA文庫【Science (Wash DC) 222, 135139】和制備差異表達基因的特異探針【PNAS. 81, 21942198】。差異表達的基因通過檢測樣本cDNA(tester)和過量的對照樣本mRNA (dri
13、ver)的相互雜交而得到。在檢測樣本cDNA (tester)和對照樣本mRNA (driver)同時表達的基因會形成mRNA/cDNA 雜交分子,而檢測樣本特異表達的基因則保持單鏈狀態(tài)。單鏈分子和雙鏈分子通過羥磷灰石層析而分離,分離得到的單鏈分子是檢測樣本特異表達的基因。差異表達的cDNA可以直接被克隆或通過cDNA文庫篩選而得到。 這個方法后來又得到改進,包括用生物素標(biāo)記【Nucl. Acids 14, 1002710044】和oligo(dT)30-latex標(biāo)記cDNA,以增加單雙鏈分子的分離效率。后來,通過PCR選擇性cDNA擴增技術(shù)被應(yīng)用到扣除雜交中,以克服以往扣除雜交中需要大量起
14、始mRNA的缺點,并可以同時提高基因克隆地效率【Nucl. Acids Res. 19, 7097-7104】 。 扣除技術(shù)的進一步成熟是在1996年,Gurskaya 等(1996) 和Diatchenko 等(1996) 同時發(fā)表了關(guān)于扣除雜交的改進方法,其主要的技術(shù)方法類似,這個技術(shù)叫抑制性扣除雜交技術(shù)(Suppression Subtractive Hybridization,SSH) 【Anal. Biochem. 240, 9097; PNAS. 93, 6025-6230】 。第18頁,共54頁。SSH的原理與基本過程原理:SSH的基本原理是以抑制PCR為基礎(chǔ)的DNA扣除雜交方法
15、。所謂抑制PCR,是利用鏈內(nèi)退火優(yōu)于鏈間退火,比鏈間退火更穩(wěn)定,從而使非目的系列片段兩端反向重復(fù)系列在退火時產(chǎn)生類似于“鍋柄”的結(jié)構(gòu),無法與引物配對,選擇性地抑制了非目的基因片段的擴增。同時,該方法運用了雜交二級動力學(xué)原理,即豐度高的單鏈cDNA在退火時產(chǎn)生同源雜交的速度要快于豐度低的單鏈cDNA,從而使原來在豐度上有差別的單鏈cDNA相對含量達到基本一致。基本過程:分別抽提代測樣本(tester)和 對照樣本(driver)的mRNA,反轉(zhuǎn)錄成cDNA,用RsaI或HaeIII酶切,以產(chǎn)生大小適當(dāng)?shù)钠筋^末端cDNA片段,將tester cDNA分成均等的兩份,各自接上兩種接頭,與過量的dri
16、ver cDNA變性后退火雜交,第一次雜交后有4種產(chǎn)物:a是單鏈tester cDNA,b是自身退火的tester cDNA雙鏈,c是tester 和diver的異源雙鏈,d是driver cDNA。第一次雜交的目的是實現(xiàn)tester單鏈 cDNA均一化(normalization),即使原來有豐度差別的單鏈cDNA的相對含量達到基本一致,由于tester cDNA中與driver cDNA序列相似的片段大都 和driver形成異源雙鏈分子c,使tester cDNA中的差異表達基因的目標(biāo)cDNA得到大量富集,第一次雜交后,合并兩份雜交產(chǎn)物,再加上新的變性driver單鏈,再次退火雜交,此時,
17、只有第一次雜交后經(jīng)均等化和扣除的單鏈tester cDNA和driver cDNA一起形成各種雙鏈分子,這次雜交進一步富集了差異表達基因的cDNA,產(chǎn)生了一種新的雙鏈分子e,它的兩個5端有兩個不同的接頭,正由于這兩上不同的接頭,使其在以后的PCR中被有效地擴增。第19頁,共54頁。抑制性差減雜交技術(shù)(SSH)原理圖(Diatchenko等,1996) 第20頁,共54頁。二、序列測定及數(shù)據(jù)分析隨機挑取克隆進行5或3端測序序列前處理聚類和拼接基因注釋及功能分類后續(xù)分析第21頁,共54頁。測序方向的選擇根據(jù)不同的實驗?zāi)康倪x擇不同的測序方向: 5端 5上游非翻譯區(qū)校短且含有較多的調(diào)控信息。一般在尋找
18、新基因或研究基因差異表達時用5端EST較好,大部分EST計劃都是選用5端進行測序的,而且從5端測序有利于將EST拼接成較長的基因序列。 3端 3端mRNA有一20200bp的plyA結(jié)構(gòu),同時靠近plyA又有特異性的非編碼區(qū),所以從3端測得EST含有編碼的信息較少但研究也表明,10的mRNA3端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記 兩端測序 獲得更全面的信息。第22頁,共54頁。1. 去除低質(zhì)量的序列(Phred)2. 應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達的基因的贗象序列(artifactual seque
19、nces)。載體序列(/repository/vector) 重復(fù)序列(RepBase,) 污染序列 (如核糖體RNA、細菌或其它物種的基因組DNA等)3. 去除其中的鑲嵌克隆。4. 最后去除長度小于100bp的序列。序列前處理 (pre-processing)第23頁,共54頁。鑲嵌克隆的識別 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.第24頁,共54頁。第25頁,共54頁。ESTs的聚類和拼接 聚類的目的就是將來自同一個基因或同一個轉(zhuǎn)錄本的具有重
20、疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用: 產(chǎn)生較長的一致性序列(consensus sequence) ,用于注釋。 降低數(shù)據(jù)的冗余,糾正錯誤數(shù)據(jù)。 可以用于檢測選擇性剪切。ESTs聚類的數(shù)據(jù)庫主要有三個: UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)第26頁,共54頁。(EST clustering tutorial, httP:/www.sanbi.ac.za)不嚴(yán)格的和嚴(yán)格的聚類 (loose and st
21、ringent clustering) loose clustering 產(chǎn)生的一致性序列比較長 表達基因ESTs數(shù)據(jù)的覆蓋率高 含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體 每一類中可能包含旁系同源基因(paralogous expressed gene)的轉(zhuǎn)錄本 序列的保真度低 stringent clustering 產(chǎn)生的一致性序列比較短 表達基因ESTs數(shù)據(jù)的覆蓋率低 因此所含有的同一基因的不同轉(zhuǎn)錄形式少 序列保真度高第27頁,共54頁。(EST clustering tutorial, httP:/www.sanbi.ac.za)有參照的和無參照的聚類 (Supervised a
22、nd unsupervised clustering) Supervised clustering 根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列) 聚類。 Unsupervised clustering 沒有根據(jù)參考序列進行分類。第28頁,共54頁。聚類的算法 基于BLAST和FASTA的腳本(BLASTN and FASTAbased scripts) BLASTN和FASTA算法的本身目的在于尋找序列間的局部相似性或同源性,這與聚類的目的不同,即通過兩個序列是否具有一致性的重疊或連續(xù)的比對來判斷二者是否能歸成一類。結(jié)合BLAST和FASTA查找的結(jié)果,采用解釋性語言(如Perl
23、)編寫的腳本,具備了3方面的功能,即運行查找過程、解析(Parsing)查找的結(jié)果和按照用戶定義的標(biāo)準(zhǔn)判斷兩個序列是否為一類。 基于字的聚類(Wordbased clustering) 基于字的聚類省略了所有的比對過程,其核心在于識別并計算序列間有多少長度為n的字(word)能夠匹配,而且并未采用有關(guān)克隆的來源及注釋信息,代表性的算法是d2_cluster。該算法為一種凝聚性(agglomerative)的聚類算法(即每一類從單一的序列開始,通過一系列的合并形成最后的類),它可以被描述為最小聯(lián)接聚類(minimal linkage clustering)。即,假設(shè)兩條序列A和B,如果二者存在一
24、定水平的相似,那么將A、B歸于一類;即便二者并沒有任何相似性,若存在序列C,而且C同時與A、B都有足夠的相似性,那么也將A、B歸于一類。類和類之間的聯(lián)接標(biāo)準(zhǔn)是識別兩個序列在一定大小窗口中相同的堿基數(shù)。第29頁,共54頁。常用的拼接軟件 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ,huang) d2_cluster (http:/www.sanbi.ac.za/)第30頁,共54頁。Cluster的連接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以連接在一起。第31頁,共54頁。UniGene U
25、nigene 結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。第32頁,共54頁。TIGR Gene Index TIGR Gene Index用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST, 該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕5?3頁,共54頁。STACK STACK 用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。第34頁,共54頁。Clean Short and T
26、ight TIGR-THCUniGeneSTACKLong and Loose 第35頁,共54頁。基因注釋及功能分類注釋: 序列聯(lián)配 Blastn, Blastx 蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對) Pfam Interpro第36頁,共54頁。基因功能分類 手工分類 大部分以Adams 95年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence.
27、Nature. 1995 377(6547 Suppl):3-174 】 計算機批量處理 利用標(biāo)準(zhǔn)基因詞匯體系Gene Ontology,進行近似的分類。 (/)第37頁,共54頁。GO的組織結(jié)構(gòu):定向無環(huán)圖( directed acyclic graphs DAGs)第38頁,共54頁。各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術(shù)語的對照第39頁,共54頁。其它分類系統(tǒng)與GO的對照表第40頁,共54頁。后續(xù)分析 比較基因組學(xué)分析 基因表達譜分析 新基因研究 基因可變剪切分析 實驗驗證 MicroArray GeneChip RTPCR Northen bloting第41頁,共54頁。實例介紹家豬腦組織EST分析第42頁,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 強化基本醫(yī)療衛(wèi)生服務(wù)的重要性
- 糧食等重要農(nóng)產(chǎn)品穩(wěn)產(chǎn)保供的重要性
- 工業(yè)企業(yè)揮發(fā)性有機物排放控制的政策支持與激勵措施
- 圓柱施工方案
- 三級人力資源管理師-企業(yè)人力資源管理師(三級)《理論知識》考前沖刺卷4
- 專題08應(yīng)用文寫作
- 安徽省安慶一中江西省南昌二中等五省六校(K12聯(lián)盟)高三上學(xué)期期末聯(lián)考英語試題
- 福建省莆田市第二十四中學(xué)2017-2018學(xué)年高一上學(xué)期期末考歷史試題
- 工會組織在企業(yè)文化建設(shè)中的獨特作用
- 九年義務(wù)教育全日制初級中學(xué)英語教學(xué)大綱( 試用修訂版)
- 北師大版二年級數(shù)學(xué)下冊各單元測試卷
- 水廠反恐培訓(xùn)教材
- 原發(fā)性肝癌護理小講課
- 2025屆湖北省三校高三第三次測評數(shù)學(xué)試卷含解析
- 護膚課件教學(xué)課件
- 《店鋪人員管理》課件
- 《物料管理》課件
- GB/T 12996-2024電動輪椅車
- T-JYBZ 020-2022《校園急救設(shè)施設(shè)備配備規(guī)范(試行)》
- 向電網(wǎng)申請光伏容量的申請書
- 公共場所樓梯拆除施工方案
評論
0/150
提交評論