版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第五節(jié)第五節(jié) 基因識(shí)別基因識(shí)別主講人:孫主講人:孫 嘯嘯 制作人:劉志華制作人:劉志華東南大學(xué) 吳健雄實(shí)驗(yàn)室基因識(shí)別基因識(shí)別v基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究?jī)?nèi)容要研究?jī)?nèi)容 v基因識(shí)別問(wèn)題,在近幾年受到廣泛的重基因識(shí)別問(wèn)題,在近幾年受到廣泛的重視視 當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處理大量已測(cè)定的但未知功能或技術(shù),以處理大量已測(cè)定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 v原核基因識(shí)別原核基因識(shí)別重點(diǎn)在于識(shí)別編碼區(qū)域重點(diǎn)在于識(shí)
2、別編碼區(qū)域v非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域但是不被翻譯,這一部分稱為非翻譯區(qū)域 v5UTR-基因上游區(qū)域的非翻譯區(qū)域基因上游區(qū)域的非翻譯區(qū)域 v3UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域v對(duì)于任何給定的核酸序列(單鏈DNA或mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進(jìn)行解釋。v例如,序列ATTCGATCGCAAv這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAA
3、ATTCGATCGCA(1)(3)(2)一個(gè)開(kāi)放閱讀框(一個(gè)開(kāi)放閱讀框(ORF,open reading frame)是一個(gè)沒(méi)有終止編碼的密碼子序)是一個(gè)沒(méi)有終止編碼的密碼子序列。列。原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開(kāi)放閱讀原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開(kāi)放閱讀框,或者說(shuō)識(shí)別長(zhǎng)的編碼區(qū)域。框,或者說(shuō)識(shí)別長(zhǎng)的編碼區(qū)域?;诨蛎艽a子特性的識(shí)別方法基于基因密碼子特性的識(shí)別方法v辨別編碼區(qū)域與非編碼區(qū)域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(gè)(個(gè)( 64/3)密碼子出現(xiàn)一次終止密)
4、密碼子出現(xiàn)一次終止密碼子碼子 基本思想:基本思想:如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。v基本算法:基本算法:掃描給定的掃描給定的DNA序列,在三個(gè)不同的閱讀序列,在三個(gè)不同的閱讀框中尋找較長(zhǎng)的框中尋找較長(zhǎng)的ORF。遇到終止密碼子以。遇到終止密碼子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。這種算法過(guò)于簡(jiǎn)單,不適合于處理短的這種算法過(guò)于簡(jiǎn)單,不適合于處理短的ORF或者交疊的或者交疊的ORF。v識(shí)別編碼區(qū)域的另一種方法是分析各種識(shí)別編碼區(qū)域的另一
5、種方法是分析各種密碼子出現(xiàn)的頻率密碼子出現(xiàn)的頻率 將一個(gè)隨機(jī)均勻分布的將一個(gè)隨機(jī)均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個(gè)、個(gè)、4個(gè)和個(gè)和1個(gè)密碼子個(gè)密碼子但是在真實(shí)的氨基酸序列中,上述比例并不但是在真實(shí)的氨基酸序列中,上述比例并不正確正確這說(shuō)明這說(shuō)明DNA的編碼區(qū)域并非隨機(jī)的編碼區(qū)域并非隨機(jī)v假設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進(jìn)一步,那么可以利
6、用密碼子頻率進(jìn)一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORFv馬爾柯夫鏈模型馬爾柯夫鏈模型v利用這種方法,可以計(jì)算一個(gè)利用這種方法,可以計(jì)算一個(gè)ORF成為成為編碼區(qū)域的可能性。編碼區(qū)域的可能性。v一個(gè)簡(jiǎn)單的統(tǒng)計(jì)模型一個(gè)簡(jiǎn)單的統(tǒng)計(jì)模型假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開(kāi)始的閱讀框,其開(kāi)始的閱讀框,其n個(gè)密碼子個(gè)密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacba
7、cbafffp.2211111v第二種和第三種閱讀框第二種和第三種閱讀框n個(gè)密碼子出現(xiàn)的概個(gè)密碼子出現(xiàn)的概率分別為率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i個(gè)閱讀框成為編碼閱讀框的概率個(gè)閱讀框成為編碼閱讀框的概率計(jì)算:計(jì)算:v算法:算法:在序列上移動(dòng)長(zhǎng)度為在序列上移動(dòng)長(zhǎng)度為n的窗口,計(jì)算的窗口,計(jì)算Pi根據(jù)根據(jù)Pi的值識(shí)別編碼的閱讀框的值識(shí)別編碼的閱讀框321ppppPii基于編碼區(qū)域堿基組成特征的識(shí)別方法基于編碼區(qū)域堿基組成特征的識(shí)別方法v編碼序列與非編碼序列在堿基組成上編碼序列與非編碼序列在堿基組成上有區(qū)別有區(qū)別單
8、個(gè)堿基的組成比例單個(gè)堿基的組成比例多個(gè)堿基的組成多個(gè)堿基的組成v通過(guò)統(tǒng)計(jì)分析識(shí)別編碼序列通過(guò)統(tǒng)計(jì)分析識(shí)別編碼序列分析實(shí)例分析實(shí)例2、真核基因識(shí)別問(wèn)題、真核基因識(shí)別問(wèn)題 真核基因遠(yuǎn)比原核基因復(fù)雜:真核基因遠(yuǎn)比原核基因復(fù)雜:v一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。的,編碼區(qū)域被分割為若干個(gè)小片段。v另一方面,真核基因具有更加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 基因識(shí)別基本思路基因識(shí)別基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)
9、錄啟動(dòng)區(qū)轉(zhuǎn)錄啟動(dòng)區(qū) 終止區(qū)終止區(qū) 在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子 識(shí)別轉(zhuǎn)錄剪切位點(diǎn)識(shí)別轉(zhuǎn)錄剪切位點(diǎn)剪切給體位點(diǎn)剪切給體位點(diǎn)剪切接受體位點(diǎn)剪切接受體位點(diǎn)v各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時(shí)可以結(jié)合起來(lái)以提高基因同的方法有時(shí)可以結(jié)合起來(lái)以提高基因識(shí)別的準(zhǔn)確率。識(shí)別的準(zhǔn)確率。v關(guān)鍵問(wèn)題是如何提高一個(gè)識(shí)別算法的敏關(guān)鍵問(wèn)題是如何提高一個(gè)識(shí)別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 3、基因識(shí)別的主要方法、基因識(shí)別的主要方法兩大類識(shí)別方法:兩大類識(shí)別方法:v
10、從頭算方法(或基于統(tǒng)計(jì)的方法)從頭算方法(或基于統(tǒng)計(jì)的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,通過(guò)統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域通過(guò)統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域 v基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如EST序序列、蛋白質(zhì)序列),通過(guò)同源比較,幫助發(fā)現(xiàn)新列、蛋白質(zhì)序列),通過(guò)同源比較,幫助發(fā)現(xiàn)新基因?;?。v最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開(kāi)發(fā)混合算法。開(kāi)發(fā)混合算法。v基因識(shí)別方法有基因識(shí)別方法有 : (1)基
11、于規(guī)則的系統(tǒng))基于規(guī)則的系統(tǒng) (2) 語(yǔ)義學(xué)方法語(yǔ)義學(xué)方法 (3) 線性辨別分析(線性辨別分析(LDA) (4) 決策樹(shù)決策樹(shù) (5) 動(dòng)態(tài)規(guī)劃動(dòng)態(tài)規(guī)劃 (6) 隱馬爾柯夫模型隱馬爾柯夫模型 (7) 剪切對(duì)比排列剪切對(duì)比排列 (spliced alignment)4、編碼區(qū)域識(shí)別、編碼區(qū)域識(shí)別兩類方法兩類方法 :v基于特征信號(hào)的識(shí)別基于特征信號(hào)的識(shí)別 內(nèi)部外顯子內(nèi)部外顯子剪切位點(diǎn)剪切位點(diǎn)5端的外顯子一定在核心啟動(dòng)子的下游端的外顯子一定在核心啟動(dòng)子的下游3端的外顯子的下游包含多聚信號(hào)和終端的外顯子的下游包含多聚信號(hào)和終止編碼止編碼 v基于統(tǒng)計(jì)度量的方法基于統(tǒng)計(jì)度量的方法 根據(jù)密碼子使用傾向根據(jù)密
12、碼子使用傾向雙聯(lián)密碼統(tǒng)計(jì)度量等雙聯(lián)密碼統(tǒng)計(jì)度量等v在一個(gè)基因中,第在一個(gè)基因中,第i個(gè)(個(gè)(i=1,64)密碼子相對(duì)使用)密碼子相對(duì)使用傾向傾向RSCUi的定義如下:的定義如下:vObsi是該基因中第是該基因中第i個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)Expi是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù)是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計(jì)的第是統(tǒng)計(jì)的第i個(gè)密碼子出現(xiàn)的次數(shù)個(gè)密碼子出現(xiàn)的次數(shù) syni是所有與第是所有與第i個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)vRSCU大于大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于高,而小于1則表示出現(xiàn)次數(shù)相對(duì)
13、較少。則表示出現(xiàn)次數(shù)相對(duì)較少。iiiExpObsRSCU iiisynaaExp(5-66) (5-65) 密碼子使用傾向密碼子使用傾向v設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計(jì)度量IF6(i,j)定義為: fk是從第k位開(kāi)始的雙聯(lián)密碼的頻率Fk是該雙聯(lián)密碼隨機(jī)出現(xiàn)的頻率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)雙聯(lián)密碼統(tǒng)計(jì)度量雙聯(lián)密碼統(tǒng)計(jì)度量通過(guò)相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子通過(guò)相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed
14、 Sequence Tags)cDNA 蛋白質(zhì)序列蛋白質(zhì)序列v目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相似性目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相似性搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過(guò)程搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過(guò)程v同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量GRAIL用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸出就是對(duì)一段輸出就是對(duì)一段DNA序列是否是編碼區(qū)域的判別結(jié)果序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,
15、能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性性5、構(gòu)建基因模型v基因識(shí)別最終任務(wù)是建立完整的基因結(jié)構(gòu)模型v一個(gè)理想的基因識(shí)別程序應(yīng)該能夠發(fā)現(xiàn)完整的基因結(jié)構(gòu) (,e1, i1, , in-1, en , ) ATG-外顯子1內(nèi)含子外顯子外顯子n-UAGv基因剪切位點(diǎn)基因剪切位點(diǎn) 剪切給體(剪切給體(donor)位點(diǎn))位點(diǎn)- “gt” 接受體(接受體(acceptor)位點(diǎn))位點(diǎn)- “ag”基因的可變剪切基因的可變剪切g(shù)ene A基因可變剪切示意基因可變剪切示意構(gòu)建基因模型方法構(gòu)建基因模型方法 v剪切位點(diǎn)形成外顯子和內(nèi)含子的邊界剪切位點(diǎn)形成外顯子和內(nèi)含子的邊界 搜集候選外顯子搜集候選外顯子 候選基因候選基因
16、v候選基因是一條候選基因是一條非相交非相交的外顯子和內(nèi)含的外顯子和內(nèi)含子的鏈,表示為子的鏈,表示為 (i0, e1, i1, , en, in) 其中其中ij代表內(nèi)含子(代表內(nèi)含子(0 j n) el代表外顯子(代表外顯子(1 l n) i0和和in并非真實(shí)的內(nèi)含子,它們分別代表并非真實(shí)的內(nèi)含子,它們分別代表基因兩側(cè)的非編碼序列基因兩側(cè)的非編碼序列v候選基因位于給定的候選基因位于給定的DNA序列,并滿足下列一序列,并滿足下列一致性條件:致性條件: (1)所有外顯子加起來(lái)的長(zhǎng)度是)所有外顯子加起來(lái)的長(zhǎng)度是3的整數(shù)倍;的整數(shù)倍; (2)在各個(gè)外顯子內(nèi)部(除最后一個(gè)外顯子的)在各個(gè)外顯子內(nèi)部(除最后
17、一個(gè)外顯子的最后一個(gè)密碼子),沒(méi)有終止編碼;最后一個(gè)密碼子),沒(méi)有終止編碼; (3)第一個(gè)內(nèi)含子)第一個(gè)內(nèi)含子-外顯子邊界(外顯子邊界(i0, e1)是翻)是翻譯起始編碼,而最后一個(gè)外顯子譯起始編碼,而最后一個(gè)外顯子-內(nèi)含子邊界內(nèi)含子邊界(en, in)是終止編碼。)是終止編碼。位點(diǎn)圖位點(diǎn)圖(分層標(biāo)注剪切位點(diǎn))(分層標(biāo)注剪切位點(diǎn))另設(shè)兩個(gè)特殊的頂點(diǎn),即起點(diǎn)(另設(shè)兩個(gè)特殊的頂點(diǎn),即起點(diǎn)(source)和終點(diǎn)()和終點(diǎn)(sink)。從起點(diǎn)到終點(diǎn)的任何一條路徑代表一個(gè)可能的基因結(jié)構(gòu)。從起點(diǎn)到終點(diǎn)的任何一條路徑代表一個(gè)可能的基因結(jié)構(gòu)。例如例如: 位點(diǎn)圖上的路徑位點(diǎn)圖上的路徑v候選基因所對(duì)應(yīng)的道路圖中的
18、路徑候選基因所對(duì)應(yīng)的道路圖中的路徑v求最優(yōu)路徑求最優(yōu)路徑每一條弧附加一個(gè)權(quán)值每一條弧附加一個(gè)權(quán)值外顯子、內(nèi)含子度量每個(gè)節(jié)點(diǎn)附加權(quán)值每個(gè)節(jié)點(diǎn)附加權(quán)值剪切位點(diǎn)度量 綜合評(píng)價(jià)綜合評(píng)價(jià) 6、用于基因識(shí)別的HMM模型v隱馬爾柯夫模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見(jiàn)是一條狀態(tài)不可見(jiàn)的馬爾柯夫鏈,其當(dāng)前狀態(tài)的輸出是可的馬爾柯夫鏈,其當(dāng)前狀態(tài)的輸出是可見(jiàn)的。見(jiàn)的。每個(gè)狀態(tài)按照一定的概率分布隨機(jī)地從字母每個(gè)狀態(tài)按照一定的概率分布隨機(jī)地從字母表中取出字符并釋放。表中取出字符并釋放。 v擴(kuò)展的隱藏馬爾柯夫模型(擴(kuò)展的隱藏馬爾柯夫模型(GHMMs )對(duì)對(duì)HMM進(jìn)一步抽象,產(chǎn)生更一般的馬爾柯進(jìn)一步抽象,產(chǎn)生更一般的
19、馬爾柯夫模型,以分析復(fù)雜的脊椎動(dòng)物基因夫模型,以分析復(fù)雜的脊椎動(dòng)物基因 。(1) 信號(hào)傳感器模型信號(hào)傳感器模型v將剪切位點(diǎn)、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上的功能位點(diǎn)或者信號(hào)位點(diǎn),用HMM來(lái)進(jìn)行分析 內(nèi)含子區(qū)域內(nèi)含子區(qū)域 外顯子區(qū)域外顯子區(qū)域 保守位點(diǎn)保守位點(diǎn) 根據(jù)對(duì)比排列,根據(jù)對(duì)比排列,形成具有形成具有19狀態(tài)狀態(tài)的的HMM模型。模型。 v對(duì)前一節(jié)所介紹的對(duì)前一節(jié)所介紹的HMM模型進(jìn)行修改,模型進(jìn)行修改,可以處理雙聯(lián)核苷酸的問(wèn)題,即將可以處理雙聯(lián)核苷酸的問(wèn)題,即將4種種概率分布擴(kuò)展為概率分布擴(kuò)展為16種。種。v假設(shè)一段序列為假設(shè)一段序列為ACTGTC,則,則 P(ACTGTC)
20、=p1(A) p2(C A) p3(T C) p4(G T) p5(T G) p6(C T) 其中其中p1是狀態(tài)是狀態(tài)1對(duì)于對(duì)于4種核苷酸的概率,種核苷酸的概率,p2(x y)狀態(tài)狀態(tài)2的條件概率。的條件概率。(2) 編碼區(qū)模型v由于密碼子的長(zhǎng)度為3,因此密碼子模型的最后一個(gè)狀態(tài)應(yīng)該至少為2階。v對(duì)于2階的狀態(tài),具有64種概率分布,可根據(jù)已知編碼區(qū)域進(jìn)行統(tǒng)計(jì)計(jì)算而得到64種分布。例如:p(ACA)=c(CAA)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(CCA)=c(CAC)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(GCA)=c(CAG)/c(CAA)+c
21、(CAC)+c(CAG)+c(CAT) p(TCA)=c(CAT)/c(CAA)+c(CAC)+c(CAG)+c(CAT) 其中,c(xyz)是密碼子xyz的計(jì)數(shù)。v這樣的模型可以檢測(cè)無(wú)結(jié)束編碼的區(qū)域,因?yàn)閷?duì)應(yīng)于三個(gè)結(jié)束編碼TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自動(dòng)為0。(3) 組合模型v將上述模型擴(kuò)展,使之可以識(shí)別具有多個(gè)外顯子的基因。 v改進(jìn)后的模型見(jiàn)下圖、基于剪切比對(duì)的基因識(shí)別方法v基本思想是:利用數(shù)據(jù)庫(kù)中的同源信息進(jìn)行基因識(shí)別,包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫(kù)。 v其方法是:首先通過(guò)分析所有可能的剪切接受體位點(diǎn)和剪切給體位點(diǎn),構(gòu)建一組候選的外顯子。然后進(jìn)一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個(gè)與已知目標(biāo)蛋白質(zhì)或其他表達(dá)序列最匹配的組合 v一種半自動(dòng)的綜合方法識(shí)別基因過(guò)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年滬科新版必修2物理上冊(cè)月考試卷含答案
- 2025年外研版2024四年級(jí)數(shù)學(xué)上冊(cè)階段測(cè)試試卷
- 2025年北師大新版必修1生物下冊(cè)階段測(cè)試試卷
- 2025年中圖版六年級(jí)英語(yǔ)下冊(cè)階段測(cè)試試卷含答案
- 2025年滬科版九年級(jí)科學(xué)上冊(cè)月考試卷含答案
- 2025年上外版七年級(jí)語(yǔ)文下冊(cè)階段測(cè)試試卷含答案
- 二零二五年度版權(quán)購(gòu)買合同標(biāo)的為某電影公司的電影作品的購(gòu)買權(quán)
- 2025年岳麓版九年級(jí)生物上冊(cè)月考試卷
- 多重耐藥感染預(yù)防與控制
- 2025年度高校人才引進(jìn)與培養(yǎng)委托人力資源合同協(xié)議3篇
- 新人教版小學(xué)英語(yǔ)五年級(jí)下冊(cè)單詞默寫(xiě)版
- 形容詞副詞(專項(xiàng)訓(xùn)練)-2023年中考英語(yǔ)二輪復(fù)習(xí)
- 北師大版七年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)課件
- 2024年《軍事理論》考試題庫(kù)附答案(含各題型)
- 搞笑小品劇本《我的健康誰(shuí)做主》臺(tái)詞完整版-宋小寶徐崢
- SAP中國(guó)客戶名單
- 城市軌道交通安全管理課件(完整版)
- 鋼結(jié)構(gòu)管廊安裝施工方案36完美版
- 財(cái)務(wù)負(fù)責(zé)人統(tǒng)一委派制度
- 提高混凝土外觀質(zhì)量
- 物業(yè)設(shè)備設(shè)施系統(tǒng)介紹(詳細(xì)).ppt
評(píng)論
0/150
提交評(píng)論