生物信息學9序列分析_第1頁
生物信息學9序列分析_第2頁
生物信息學9序列分析_第3頁
生物信息學9序列分析_第4頁
生物信息學9序列分析_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第六章 序列分析1一、堿基組成 DNA序列一個顯而易見的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時對數(shù)學模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。2 表1包含了9個完整DNA分子序列的資料,表2的數(shù)據(jù)來自兩個胎兒球蛋白基因(Gr和Ar),每個基因具有三個外顯子和兩個內(nèi)含子(shen等1981)。這兩個例子說明序列內(nèi)和序列間堿基具有不同的頻率。在基因每一側(cè)的500 個任意堿基區(qū)域被稱為“側(cè)翼”,基因間區(qū)域是指兩個基因間的其余序列。 3表1 九種完整DNA序列的堿基組成 4表2 人類胎兒球蛋白基因不同區(qū)段的堿基組成 5二堿基相鄰頻率 分析DNA序列的主要困難之一

2、是堿基相鄰的頻率不是獨立的。堿基相鄰的頻率一般不等于單個堿基頻率的乘積例:雞血紅蛋白鏈的mRNA編碼區(qū)的438個堿基6圖1 雞球蛋白基因編碼區(qū)的DNA序列 (GenBank:CHKHBBM,記錄號J00860) 7表3 圖1雞球蛋白基因序列的相鄰堿基分布 8在編碼區(qū),存在某種約束來限制DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關(guān)。 表4列出了遺傳密碼和圖1序列中各密碼子數(shù)量。盡管數(shù)目很小,難以作出有力的統(tǒng)計結(jié)論,但編碼同一氨基酸的不同密碼子(同義密碼子)好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關(guān)。 表4還清楚地表明,由于密碼子第3位置上堿基的改變常常不會

3、改變氨基酸的類型,因而對第3位置上堿基的約束要比第 2位堿基小得多。 9表4 64種可能的堿基三聯(lián)體密碼子及相應的氨基酸數(shù)(據(jù)圖1序列) 10相鄰堿基之間的關(guān)聯(lián)將導致更遠堿基之間的關(guān)聯(lián),這些關(guān)聯(lián)延伸距離的估計可以從馬爾科夫鏈(Markov chain)理論得到(Javare和Giddings,1989)11三同向重復序列分析 除了分析整個序列堿基關(guān)聯(lián)程度的特征外,我們常對尋找同向重復序列(direct repeats)之類的問題感興趣。Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼(word)。只需要對整個序列搜索一次。給一堿基賦

4、以值,例如A、C、G、T的值為0、1、2、3。由X1、X2、Xk 共k個字母組成的每一種不同的字碼按:計算字碼值。這些值的取值范圍為1到4k12例如:5字碼TGACC的值為1+344+243+042+141+140=459??上葟牡蚹值的字碼開始搜索。記錄序列中每一個位置k字碼的字碼值。只有在發(fā)現(xiàn)k字碼長度重復的那些位置考慮進行長度大于k的字碼搜索。 序列TGGAAATAAAACGTAAGTAG中所有堿基2字碼(k=2)的初始位置和字碼值。對于完全重復、長度大于2的同向重復或亞序列的搜索可只限于2字碼重復的初始位置。在本例中只有4個重復的2堿基重復序列。例如,在位置4、5、8、9、10和15均

5、發(fā)現(xiàn)了字碼值為1的堿基重復序列。從有重復的2堿基為起點的3字碼值中發(fā)現(xiàn)字碼值為1、45和49的序列有重復;以每一重復的3堿基為起點的4字碼搜索未能發(fā)現(xiàn)更長的重復序列。 13表5 序列TGGAAATAAAACGTAAGTAG的3字碼值和位置(Karlin, 1983) 14四、RNA二級結(jié)構(gòu)預測 盡管現(xiàn)有一些RNA折疊程序可以預測RNA二級結(jié)構(gòu),但這類分析仍然是一門藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對給定的RNA分子來說,這一結(jié)果的生物學意義究竟有多大,還是一個未知數(shù)。即使有此局限性,二級結(jié)構(gòu)的預測還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。 1

6、5擬南芥phyA部份RNA1617五、從序列中尋找基因 1.基因及基因區(qū)域預測 基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框(Open Reading Frame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因為斷裂基因,即其編碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列(即內(nèi)含子

7、),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。 18一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。 19 所謂基因區(qū)域預測,一般是指預測DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。 不過目前基因區(qū)域的預測已從單純外顯子預測發(fā)展到整個基因結(jié)構(gòu)的預測。這些預測綜合各種外顯子預測的算法和人們對基因結(jié)構(gòu)信號(如TATA盒等)的認識,預測出可能的完整基因20 基因區(qū)域的預測是一個活躍的研究領(lǐng)域,先后有一大批預測算法和相應程序被提出和

8、應用,其中有的方法對編碼序列的預測準確率高達90%以上,而且在敏感性和特異性之間取得了很好的平衡預測方法中,最早是通過序列核苷酸頻率、密碼子等特性進行預測(如最長ORF法等),隨著各類數(shù)據(jù)庫的建立和完善,通過相似性列線比對也可以預測可能的基因。同時,一批新方法也被提了出來,如隱馬爾可夫模型(Hidden Markov Model,HMM)、動態(tài)規(guī)劃法(dynamic programming)、法則系統(tǒng)(ruled-based system)、語言學(linguistic)方法、線性判別分析(Linear Discriminant Analysis,LDA)、決策樹(decision tree)

9、、拼接列線(spliced alingment)、博利葉分析(Fourier analysis)等。 下表列出了claverie(1997)對部分程序預測基因區(qū)域能力的比較結(jié)果,表中同時列出了相應算法和程序的網(wǎng)址。21目前基因區(qū)域預測的各種算法均存在以下2個問題(1)目前算法對基因中的非編碼區(qū)和基因間序列不加任何區(qū)別,所以預測出的基因仍然是不完全的,對5和3非編譯區(qū)(UTR,untranslated region)的預測基本上還是空白;(2)目前大多數(shù)算法都是基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進行學習或訓練,由于訓練所用

10、的序列畢竟是有限的,所以對那些與學習過的基因結(jié)構(gòu)不太相似的基因,這些算法的預測效果就要大打折扣了要解決以上兩個問題,需要對基因結(jié)構(gòu)進行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計規(guī)律。 222發(fā)現(xiàn)基因的一般過程 從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預測和基因功能預測2個層次第一步:獲取DNA目標序列 如果你已有目標序列,可直接進入第2步; 可通過PubMed查找你感興趣的資料;通過GenBank或EMBL等數(shù)據(jù)庫查找目標序列23第二步:查找ORF并將目標序列翻譯成蛋白質(zhì)序列利用相應工具,如ORF Finder、Gene feature(Baylor College of Medicine)、

11、GenLang(University of Pennsylvania)等,查找ORF并將DNA序列翻譯成蛋白質(zhì)序列 第三步:在數(shù)據(jù)庫中進行序列搜索 可以利用BLAST進行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索第四步:進行目標序列與搜索得到的相似序列的整體列線(global alignment) 雖然第三步已進行局部列線(local alignment)分析,但整體列線有助于進一步加深目標序列的認識24進行多序列列線(multiple sequence alignment)和獲得列線區(qū)段的可視信息??煞謩e在AMAS(Oxford University)和BOXSHADE(ISREC,Swi

12、tzerland)等服務器上進行第五步:查找基因家族第六步:查找目標序列中的特定模序 分別在Procite、BLOCK、Motif數(shù)據(jù)庫進行profile、模塊(block)、模序(motif)檢索; 對蛋白質(zhì)序列進行統(tǒng)計分析和有關(guān)預測第七步:預測目標序列結(jié)構(gòu) 可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等預測目標序列的蛋白質(zhì)二級結(jié)構(gòu)25第八步:獲取相關(guān)蛋白質(zhì)的功能信息 為了了解目標序列的功能,收集與目標序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要??衫肞ubMed進行搜索第九步:把目標序列輸入“提醒”服務器 如果有與目標

13、序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫,提醒(alert)服務會向你發(fā)出通知。可選用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服務器263解讀序列(making sense of the sequence) 大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計算機手段分析外顯子和其它序列信號,如酶切位點27六、基于編碼區(qū)特性:最長ORF法 基因區(qū)域或蛋白質(zhì)編碼區(qū)的識別,特別是對高等真核生物基因組DNA序列中編碼區(qū)的識別仍未能實現(xiàn)完全自動化。將每條鏈按6個讀框全部翻

14、譯出來,然后找出所有可能的不間斷開放閱讀框(ORF)往往有助于基因的發(fā)現(xiàn)28預測基因組的全部編碼區(qū)或稱為開放閱讀框的方法概括來說也可以分為三類:一類是基于編碼區(qū)所具有的獨特信號,如始起密碼子、終止密碼子等;二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;三是通過同源性比較搜尋蛋白質(zhì)庫或dbEST庫尋找編碼區(qū)。前二類方法主要是利用編碼區(qū)的特性來尋找,下面對這二類方法做簡單描述29最長ORF法:在細菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長度以上的O

15、RF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長的ORF(300bp)就能相當準確地預測出基因30 利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進行編碼區(qū)的統(tǒng)計學鑒別方法:由于內(nèi)含子的進化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機。這是目前各種預測程序中被廣泛應用的一種方法,如GCG(Genetic Computer Group 研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了這一方法31 CpG島:CpG島(CpG island)一詞是用來描述

16、哺乳動物基因組DNA中的一部分序列,其特點是胞嘧啶(C)與鳥嘌呤(G)的總和超過4種堿基總和的50%,即每10個核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點的序列僅占基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計發(fā)現(xiàn),幾乎所有的管家基因(House-Keeping gene)及約占40%的組織特異性基因的5末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動子及第一個外顯子。因此,在大規(guī)模DNA測序計劃中,每發(fā)現(xiàn)一個CpG島,則預示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標之一32DNAstar DNAquest parametersTitle給文件取名。 Ruler在文件中

17、加入標尺。 Sequence顯示文件中的序列。 Patterns Matrix方法的運算參數(shù)。 Signal轉(zhuǎn)錄因子結(jié)合位點數(shù)據(jù)庫。 Type-In Patterns使用鍵盤輸入運算所需的Pattern參數(shù)。 Repeats Inverted Repeats尋找反向重復序列。 Dyad Repeats尋找Dyad重復和palindromes。 Direct Repeats尋找正向重復序列。 Gene Finding - DNA Finder在打開的DNA序列中尋找指定DNA序列。分別顯示正義連和反義連的尋找結(jié)果。 33Gene Finding DNA Finder在打開的DNA序列中尋找指定D

18、NA序列。分別顯示正義連和反義連的尋找結(jié)果。 Protein Finder在打開的蛋白質(zhì)序列中尋找指定DNA序列的翻譯序列。顯示結(jié)果為全部6個讀框。 Enzymes-Restriction Map用DNASTAR酶目錄中的酶分析打開的序列,并以圖形方式展示。Coding Prediction Borodovsky用Borodovskys Markov方法來識別潛在的基因編 碼區(qū),并以圖形方式展示。 Starts Stops ORFs根據(jù)指定的ORFs的最小長度,尋找可能的開放讀框,可以選擇是否需要起始密碼子。讀框的啟始和中止點分別展示。 Local Compositional Complexi

19、ty根據(jù)Shannon信息學原理尋找有基因編碼提示信息的區(qū)域。 Base Contents-Base Distribution序列上4種堿基、A+T和G+C的頻率、分布,以及AT和gc分布區(qū)域。 Bent DNA - Bending IndexDNA折疊預測。34七、PCR(Polymerase chain reaction)及引物設計利用與DNA模板序列的兩端互補的一對寡聚核苷酸引物來擴增一段DNA序列。由一種熱穩(wěn)定的DNA聚合酶經(jīng)三步反應即變性、引物退火和聚合的循環(huán)從兩個引物來相對延伸。35PCR的基本原理PCR反應條件PCR過程PCR的特點標準的PCR反應體系4種dNTP混合物 各200

20、umol/L引物 各10100pmol模板DNA 0.12ugTaq DNA聚合酶 2.5uMg2+ 1.5mmol/L361234522557294時間(min)溫度()PCR的基本原理PCR反應條件PCR過程PCR的特點適溫延伸3高溫變性1低溫退火2重復13步2530輪目的DNA片段擴增100萬倍以上DNA雙螺旋DNA單鏈與引物復性DNA變性形成2條單鏈子鏈延伸DNA加倍37引物設計:(1)序列應位于高度保守區(qū),與非擴增區(qū)無同源序列。(2)引物長度以15-40 bp為宜。(3)堿基盡可能隨機分布,G+C占50-60%。(4)引物內(nèi)部避免形成二級結(jié)構(gòu)。(5)兩引物間避免有互補序列。(6)引物3端為關(guān)鍵堿基;5端無嚴格限制。383535限制性內(nèi)切酶的識別序列啟動子序列定點突變探針標記39實驗三 核酸序列分析(一)一、實驗內(nèi)容1、 使用DNAstar進行核酸基本信息分析2、ORF分析二、作業(yè)1、記錄擬南芥phyA NM_100828序列的序列組成2、記錄擬南芥phyA NM_100828序列最長的ORF的起止區(qū)間。40實驗四 核酸序列分析(二)一、 實驗內(nèi)容1、PCR引物設計2、核酸序列的電子基因定位二、 作業(yè)1、記錄擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論