版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第五節(jié)第五節(jié) 基因識別基因識別主講人:孫主講人:孫 嘯嘯 制作人:劉志華制作人:劉志華東南大學(xué) 吳健雄實驗室基因識別基因識別v基因識別是生物信息學(xué)領(lǐng)域里的一個重基因識別是生物信息學(xué)領(lǐng)域里的一個重要研究內(nèi)容要研究內(nèi)容 v基因識別問題,在近幾年受到廣泛的重基因識別問題,在近幾年受到廣泛的重視視 當(dāng)人類基因組研究進入一個系統(tǒng)測序階段當(dāng)人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動的基因組序列翻譯解釋時,急需可靠自動的基因組序列翻譯解釋技術(shù),以處理大量已測定的但未知功能或技術(shù),以處理大量已測定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 v原核基因識別原核基因識別重點在于識別編碼區(qū)域重點在于識
2、別編碼區(qū)域v非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域但是不被翻譯,這一部分稱為非翻譯區(qū)域 v5UTR-基因上游區(qū)域的非翻譯區(qū)域基因上游區(qū)域的非翻譯區(qū)域 v3UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域v對于任何給定的核酸序列(單鏈DNA或mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進行解釋。v例如,序列ATTCGATCGCAAv這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAA
3、ATTCGATCGCA(1)(3)(2)一個開放閱讀框(一個開放閱讀框(ORF,open reading frame)是一個沒有終止編碼的密碼子序)是一個沒有終止編碼的密碼子序列。列。原核基因識別任務(wù)的重點是識別開放閱讀原核基因識別任務(wù)的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域。框,或者說識別長的編碼區(qū)域?;诨蛎艽a子特性的識別方法基于基因密碼子特性的識別方法v辨別編碼區(qū)域與非編碼區(qū)域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(個( 64/3)密碼子出現(xiàn)一次終止密)
4、密碼子出現(xiàn)一次終止密碼子碼子 基本思想:基本思想:如果能夠找到一個比較長的序列,其相應(yīng)如果能夠找到一個比較長的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。v基本算法:基本算法:掃描給定的掃描給定的DNA序列,在三個不同的閱讀序列,在三個不同的閱讀框中尋找較長的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短的這種算法過于簡單,不適合于處理短的ORF或者交疊的或者交疊的ORF。v識別編碼區(qū)域的另一種方法是分析各種識別編碼區(qū)域的另一
5、種方法是分析各種密碼子出現(xiàn)的頻率密碼子出現(xiàn)的頻率 將一個隨機均勻分布的將一個隨機均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個、個、4個和個和1個密碼子個密碼子但是在真實的氨基酸序列中,上述比例并不但是在真實的氨基酸序列中,上述比例并不正確正確這說明這說明DNA的編碼區(qū)域并非隨機的編碼區(qū)域并非隨機v假設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進一步,那么可以利
6、用密碼子頻率進一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORFv馬爾柯夫鏈模型馬爾柯夫鏈模型v利用這種方法,可以計算一個利用這種方法,可以計算一個ORF成為成為編碼區(qū)域的可能性。編碼區(qū)域的可能性。v一個簡單的統(tǒng)計模型一個簡單的統(tǒng)計模型假設(shè)相繼的密碼子是獨立的,不存在前后依假設(shè)相繼的密碼子是獨立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框,其開始的閱讀框,其n個密碼子個密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacba
7、cbafffp.2211111v第二種和第三種閱讀框第二種和第三種閱讀框n個密碼子出現(xiàn)的概個密碼子出現(xiàn)的概率分別為率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i個閱讀框成為編碼閱讀框的概率個閱讀框成為編碼閱讀框的概率計算:計算:v算法:算法:在序列上移動長度為在序列上移動長度為n的窗口,計算的窗口,計算Pi根據(jù)根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii基于編碼區(qū)域堿基組成特征的識別方法基于編碼區(qū)域堿基組成特征的識別方法v編碼序列與非編碼序列在堿基組成上編碼序列與非編碼序列在堿基組成上有區(qū)別有區(qū)別單
8、個堿基的組成比例單個堿基的組成比例多個堿基的組成多個堿基的組成v通過統(tǒng)計分析識別編碼序列通過統(tǒng)計分析識別編碼序列分析實例分析實例2、真核基因識別問題、真核基因識別問題 真核基因遠比原核基因復(fù)雜:真核基因遠比原核基因復(fù)雜:v一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個小片段。的,編碼區(qū)域被分割為若干個小片段。v另一方面,真核基因具有更加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 基因識別基本思路基因識別基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)
9、錄啟動區(qū)轉(zhuǎn)錄啟動區(qū) 終止區(qū)終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子在啟動區(qū)下游位置尋找翻譯起始密碼子 識別轉(zhuǎn)錄剪切位點識別轉(zhuǎn)錄剪切位點剪切給體位點剪切給體位點剪切接受體位點剪切接受體位點v各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時可以結(jié)合起來以提高基因同的方法有時可以結(jié)合起來以提高基因識別的準確率。識別的準確率。v關(guān)鍵問題是如何提高一個識別算法的敏關(guān)鍵問題是如何提高一個識別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 3、基因識別的主要方法、基因識別的主要方法兩大類識別方法:兩大類識別方法:v
10、從頭算方法(或基于統(tǒng)計的方法)從頭算方法(或基于統(tǒng)計的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別,根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別,通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域 v基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如EST序序列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因?;颉最理想的方法是綜合兩大類方法的優(yōu)點,最理想的方法是綜合兩大類方法的優(yōu)點,開發(fā)混合算法。開發(fā)混合算法。v基因識別方法有基因識別方法有 : (1)基
11、于規(guī)則的系統(tǒng))基于規(guī)則的系統(tǒng) (2) 語義學(xué)方法語義學(xué)方法 (3) 線性辨別分析(線性辨別分析(LDA) (4) 決策樹決策樹 (5) 動態(tài)規(guī)劃動態(tài)規(guī)劃 (6) 隱馬爾柯夫模型隱馬爾柯夫模型 (7) 剪切對比排列剪切對比排列 (spliced alignment)4、編碼區(qū)域識別、編碼區(qū)域識別兩類方法兩類方法 :v基于特征信號的識別基于特征信號的識別 內(nèi)部外顯子內(nèi)部外顯子剪切位點剪切位點5端的外顯子一定在核心啟動子的下游端的外顯子一定在核心啟動子的下游3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼 v基于統(tǒng)計度量的方法基于統(tǒng)計度量的方法 根據(jù)密碼子使用傾向根據(jù)密
12、碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等雙聯(lián)密碼統(tǒng)計度量等v在一個基因中,第在一個基因中,第i個(個(i=1,64)密碼子相對使用)密碼子相對使用傾向傾向RSCUi的定義如下:的定義如下:vObsi是該基因中第是該基因中第i個密碼子實際出現(xiàn)的次數(shù)個密碼子實際出現(xiàn)的次數(shù)Expi是對應(yīng)密碼子期望的出現(xiàn)次數(shù)是對應(yīng)密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計的第是統(tǒng)計的第i個密碼子出現(xiàn)的次數(shù)個密碼子出現(xiàn)的次數(shù) syni是所有與第是所有與第i個密碼子同義密碼子出現(xiàn)的次數(shù)個密碼子同義密碼子出現(xiàn)的次數(shù)vRSCU大于大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于高,而小于1則表示出現(xiàn)次數(shù)相對
13、較少。則表示出現(xiàn)次數(shù)相對較少。iiiExpObsRSCU iiisynaaExp(5-66) (5-65) 密碼子使用傾向密碼子使用傾向v設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為: fk是從第k位開始的雙聯(lián)密碼的頻率Fk是該雙聯(lián)密碼隨機出現(xiàn)的頻率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)雙聯(lián)密碼統(tǒng)計度量雙聯(lián)密碼統(tǒng)計度量通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed
14、 Sequence Tags)cDNA 蛋白質(zhì)序列蛋白質(zhì)序列v目前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相似性目前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相似性搜索的信息結(jié)合進基因預(yù)測過程搜索的信息結(jié)合進基因預(yù)測過程v同時考慮序列特征信號和統(tǒng)計度量同時考慮序列特征信號和統(tǒng)計度量GRAIL用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸出就是對一段輸出就是對一段DNA序列是否是編碼區(qū)域的判別結(jié)果序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,
15、能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性性5、構(gòu)建基因模型v基因識別最終任務(wù)是建立完整的基因結(jié)構(gòu)模型v一個理想的基因識別程序應(yīng)該能夠發(fā)現(xiàn)完整的基因結(jié)構(gòu) (,e1, i1, , in-1, en , ) ATG-外顯子1內(nèi)含子外顯子外顯子n-UAGv基因剪切位點基因剪切位點 剪切給體(剪切給體(donor)位點)位點- “gt” 接受體(接受體(acceptor)位點)位點- “ag”基因的可變剪切基因的可變剪切g(shù)ene A基因可變剪切示意基因可變剪切示意構(gòu)建基因模型方法構(gòu)建基因模型方法 v剪切位點形成外顯子和內(nèi)含子的邊界剪切位點形成外顯子和內(nèi)含子的邊界 搜集候選外顯子搜集候選外顯子 候選基因候選基因
16、v候選基因是一條候選基因是一條非相交非相交的外顯子和內(nèi)含的外顯子和內(nèi)含子的鏈,表示為子的鏈,表示為 (i0, e1, i1, , en, in) 其中其中ij代表內(nèi)含子(代表內(nèi)含子(0 j n) el代表外顯子(代表外顯子(1 l n) i0和和in并非真實的內(nèi)含子,它們分別代表并非真實的內(nèi)含子,它們分別代表基因兩側(cè)的非編碼序列基因兩側(cè)的非編碼序列v候選基因位于給定的候選基因位于給定的DNA序列,并滿足下列一序列,并滿足下列一致性條件:致性條件: (1)所有外顯子加起來的長度是)所有外顯子加起來的長度是3的整數(shù)倍;的整數(shù)倍; (2)在各個外顯子內(nèi)部(除最后一個外顯子的)在各個外顯子內(nèi)部(除最后
17、一個外顯子的最后一個密碼子),沒有終止編碼;最后一個密碼子),沒有終止編碼; (3)第一個內(nèi)含子)第一個內(nèi)含子-外顯子邊界(外顯子邊界(i0, e1)是翻)是翻譯起始編碼,而最后一個外顯子譯起始編碼,而最后一個外顯子-內(nèi)含子邊界內(nèi)含子邊界(en, in)是終止編碼。)是終止編碼。位點圖位點圖(分層標注剪切位點)(分層標注剪切位點)另設(shè)兩個特殊的頂點,即起點(另設(shè)兩個特殊的頂點,即起點(source)和終點()和終點(sink)。從起點到終點的任何一條路徑代表一個可能的基因結(jié)構(gòu)。從起點到終點的任何一條路徑代表一個可能的基因結(jié)構(gòu)。例如例如: 位點圖上的路徑位點圖上的路徑v候選基因所對應(yīng)的道路圖中的
18、路徑候選基因所對應(yīng)的道路圖中的路徑v求最優(yōu)路徑求最優(yōu)路徑每一條弧附加一個權(quán)值每一條弧附加一個權(quán)值外顯子、內(nèi)含子度量每個節(jié)點附加權(quán)值每個節(jié)點附加權(quán)值剪切位點度量 綜合評價綜合評價 6、用于基因識別的HMM模型v隱馬爾柯夫模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見是一條狀態(tài)不可見的馬爾柯夫鏈,其當(dāng)前狀態(tài)的輸出是可的馬爾柯夫鏈,其當(dāng)前狀態(tài)的輸出是可見的。見的。每個狀態(tài)按照一定的概率分布隨機地從字母每個狀態(tài)按照一定的概率分布隨機地從字母表中取出字符并釋放。表中取出字符并釋放。 v擴展的隱藏馬爾柯夫模型(擴展的隱藏馬爾柯夫模型(GHMMs )對對HMM進一步抽象,產(chǎn)生更一般的馬爾柯進一步抽象,產(chǎn)生更一般的
19、馬爾柯夫模型,以分析復(fù)雜的脊椎動物基因夫模型,以分析復(fù)雜的脊椎動物基因 。(1) 信號傳感器模型信號傳感器模型v將剪切位點、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上的功能位點或者信號位點,用HMM來進行分析 內(nèi)含子區(qū)域內(nèi)含子區(qū)域 外顯子區(qū)域外顯子區(qū)域 保守位點保守位點 根據(jù)對比排列,根據(jù)對比排列,形成具有形成具有19狀態(tài)狀態(tài)的的HMM模型。模型。 v對前一節(jié)所介紹的對前一節(jié)所介紹的HMM模型進行修改,模型進行修改,可以處理雙聯(lián)核苷酸的問題,即將可以處理雙聯(lián)核苷酸的問題,即將4種種概率分布擴展為概率分布擴展為16種。種。v假設(shè)一段序列為假設(shè)一段序列為ACTGTC,則,則 P(ACTGTC)
20、=p1(A) p2(C A) p3(T C) p4(G T) p5(T G) p6(C T) 其中其中p1是狀態(tài)是狀態(tài)1對于對于4種核苷酸的概率,種核苷酸的概率,p2(x y)狀態(tài)狀態(tài)2的條件概率。的條件概率。(2) 編碼區(qū)模型v由于密碼子的長度為3,因此密碼子模型的最后一個狀態(tài)應(yīng)該至少為2階。v對于2階的狀態(tài),具有64種概率分布,可根據(jù)已知編碼區(qū)域進行統(tǒng)計計算而得到64種分布。例如:p(ACA)=c(CAA)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(CCA)=c(CAC)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(GCA)=c(CAG)/c(CAA)+c
21、(CAC)+c(CAG)+c(CAT) p(TCA)=c(CAT)/c(CAA)+c(CAC)+c(CAG)+c(CAT) 其中,c(xyz)是密碼子xyz的計數(shù)。v這樣的模型可以檢測無結(jié)束編碼的區(qū)域,因為對應(yīng)于三個結(jié)束編碼TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自動為0。(3) 組合模型v將上述模型擴展,使之可以識別具有多個外顯子的基因。 v改進后的模型見下圖、基于剪切比對的基因識別方法v基本思想是:利用數(shù)據(jù)庫中的同源信息進行基因識別,包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。 v其方法是:首先通過分析所有可能的剪切接受體位點和剪切給體位點,構(gòu)建一組候選的外顯子。然后進一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個與已知目標蛋白質(zhì)或其他表達序列最匹配的組合 v一種半自動的綜合方法識別基因過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年項目利潤分配協(xié)議
- 2024年采沙場工人勞動合同2篇
- 2024幼兒園幼兒教育項目合作協(xié)議3篇
- 2024年環(huán)保要求土建工程合同示范文本3篇
- 2025年度數(shù)字經(jīng)濟股權(quán)優(yōu)化與產(chǎn)業(yè)生態(tài)構(gòu)建協(xié)議3篇
- 2024年酒類產(chǎn)品原料供應(yīng)合同
- 2024版區(qū)塊鏈技術(shù)應(yīng)用合同
- 2024版租賃投資回報保證協(xié)議3篇
- 2024年鐵路貨運運輸工程居間服務(wù)協(xié)議3篇
- 2024年綠色施工環(huán)保合同:建設(shè)工程版
- 經(jīng)編結(jié)構(gòu)與編織原理課件
- 2023年礦井應(yīng)急救援理論考試試題及答案
- 2024年全國版圖知識競賽(小學(xué)組)考試題庫大全(含答案)
- 腹腔鏡手術(shù)設(shè)備、工作原理與操作應(yīng)用
- 中集集團招聘題庫
- 大學(xué)生國家安全教育意義
- 2024年保育員(初級)培訓(xùn)計劃和教學(xué)大綱-(目錄版)
- 海域租賃協(xié)議
- 財務(wù)對標工作總結(jié)匯報
- 血透管的固定和護理
- 寒假彎道超車主題勵志班會課件
評論
0/150
提交評論