核酸序列分析_第1頁(yè)
核酸序列分析_第2頁(yè)
核酸序列分析_第3頁(yè)
核酸序列分析_第4頁(yè)
核酸序列分析_第5頁(yè)
已閱讀5頁(yè),還剩136頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生命之書的閱讀生命之書的閱讀1、對(duì)生物個(gè)體的閱讀、對(duì)生物個(gè)體的閱讀 2 2、同種生物不同個(gè)體之間的比較分、同種生物不同個(gè)體之間的比較分析析3 3、不同物種比較、不同物種比較 更重要的是找出差異的結(jié)果更重要的是找出差異的結(jié)果 基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究?jī)?nèi)容研究?jī)?nèi)容 基因識(shí)別問題,在近幾年受到廣泛的重視基因識(shí)別問題,在近幾年受到廣泛的重視 當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段時(shí),當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處理大量已測(cè)定的但未知功能或未經(jīng)注釋的理大量已測(cè)定

2、的但未知功能或未經(jīng)注釋的DNADNA序序列列 基因識(shí)別基因識(shí)別使用計(jì)算機(jī)手段識(shí)別使用計(jì)算機(jī)手段識(shí)別DNA序列上序列上的具有生物學(xué)特征的片段,其對(duì)象主要是蛋白的具有生物學(xué)特征的片段,其對(duì)象主要是蛋白質(zhì)編碼基因,也包括其他具有一定生物學(xué)功能質(zhì)編碼基因,也包括其他具有一定生物學(xué)功能的因子,如的因子,如RNA、MicroRNA基因等一些非編碼基因等一些非編碼基因,基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重基因,基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究?jī)?nèi)容。要研究?jī)?nèi)容。基因語言的特點(diǎn)基因語言的特點(diǎn)真核生物中有很多重復(fù)序列,拷貝在幾十幾百到幾萬。真核生物中有很多重復(fù)序列,拷貝在幾十幾百到幾萬。通常是不編碼的序列通

3、常是不編碼的序列 真核生物基因是不連續(xù)的真核生物基因是不連續(xù)的 真核生物的啟動(dòng)子和增強(qiáng)子真核生物的啟動(dòng)子和增強(qiáng)子 真核生物的基因有一些特定的模式真核生物的基因有一些特定的模式 由于進(jìn)化的原因,基因序列比較保守由于進(jìn)化的原因,基因序列比較保守轉(zhuǎn)錄起始位點(diǎn)轉(zhuǎn)錄起始位點(diǎn) 起始密碼子起始密碼子終止密碼子終止密碼子 轉(zhuǎn)錄終止位點(diǎn)轉(zhuǎn)錄終止位點(diǎn)5啟動(dòng)區(qū)啟動(dòng)區(qū)5UTR 開放閱讀框開放閱讀框 3UTR 終止區(qū)終止區(qū)3原核基因的典型結(jié)構(gòu)原核基因的典型結(jié)構(gòu)GCGC含量含量(GC content):(GC content): 不同原核生物中,不同原核生物中,GCGC含量從含量從25%75%25%75%?;蛩睫D(zhuǎn)移基

4、因水平轉(zhuǎn)移(horizontal gene trasferhorizontal gene trasfer) 許多細(xì)胞基因組表現(xiàn)具有不同許多細(xì)胞基因組表現(xiàn)具有不同GCGC含量的區(qū)域的含量的區(qū)域的組合物,這些區(qū)域反映了細(xì)菌的進(jìn)化歷史。組合物,這些區(qū)域反映了細(xì)菌的進(jìn)化歷史。 非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, untranslated regions, UTRUTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNADNA,有一部分被轉(zhuǎn),有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域翻譯區(qū)域 5 5UTR-UTR-基因上游區(qū)域的非翻譯區(qū)域基因上

5、游區(qū)域的非翻譯區(qū)域 3 3UTR-UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域 對(duì)于任何給定的核酸序列(單鏈對(duì)于任何給定的核酸序列(單鏈DNA或或mRNA),根據(jù)密碼子的起始位置,),根據(jù)密碼子的起始位置,可以按照三種方式進(jìn)行解釋??梢园凑杖N方式進(jìn)行解釋。 例如,序列例如,序列ATTCGATCGCAA 這三種閱讀順序稱為閱讀框(這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一個(gè)開放閱讀框(一個(gè)開放閱讀框(ORF,open reading ORF,open reading fra

6、meframe)是一個(gè)沒有終止編碼的密碼子序)是一個(gè)沒有終止編碼的密碼子序列。列。原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀框,或者說識(shí)別長(zhǎng)的編碼區(qū)域???,或者說識(shí)別長(zhǎng)的編碼區(qū)域。 真核基因遠(yuǎn)比原核基因復(fù)雜:真核基因遠(yuǎn)比原核基因復(fù)雜: 一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。的,編碼區(qū)域被分割為若干個(gè)小片段。 另一方面,真核基因具有更加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 真核基因組特點(diǎn):真核基因組特點(diǎn):u規(guī)模

7、龐大規(guī)模龐大人類基因組人類基因組 3 310109 9 bpbp 大腸桿菌基因組大腸桿菌基因組 5 5 10107 7 bp bpu巨大的非編碼序列巨大的非編碼序列u復(fù)雜的基因結(jié)構(gòu)復(fù)雜的基因結(jié)構(gòu)啟動(dòng)區(qū)啟動(dòng)區(qū) 5UTR外顯子外顯子內(nèi)含子內(nèi)含子外顯子外顯子內(nèi)含子內(nèi)含子內(nèi)含子內(nèi)含子5外顯子外顯子3UTR終止區(qū)終止區(qū)3轉(zhuǎn)錄位點(diǎn)轉(zhuǎn)錄位點(diǎn) 起始密碼子起始密碼子終止密碼子終止密碼子剪切給體位點(diǎn)剪切給體位點(diǎn)剪切受體位點(diǎn)剪切受體位點(diǎn)蛋白質(zhì)序列蛋白質(zhì)序列翻翻譯譯Codon biasGC Content酶切位點(diǎn)酶切位點(diǎn)引物設(shè)計(jì)引物設(shè)計(jì)編碼區(qū)預(yù)測(cè)編碼區(qū)預(yù)測(cè)基因結(jié)構(gòu)分析基因結(jié)構(gòu)分析選擇性剪切選擇性剪切SNP序列比對(duì)序列

8、比對(duì)功能注釋功能注釋KEGGGO系統(tǒng)發(fā)育樹系統(tǒng)發(fā)育樹蛋白質(zhì)理化性質(zhì)蛋白質(zhì)理化性質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)構(gòu)域分析結(jié)構(gòu)域分析重要信號(hào)位點(diǎn)分析重要信號(hào)位點(diǎn)分析三級(jí)結(jié)構(gòu)預(yù)測(cè)三級(jí)結(jié)構(gòu)預(yù)測(cè)以以DNAMANDNAMAN軟件為例軟件為例進(jìn)行序列分析時(shí),經(jīng)常需要對(duì)進(jìn)行序列分析時(shí),經(jīng)常需要對(duì)DNA序列進(jìn)行各種變換,如反向序列進(jìn)行各種變換,如反向序列、互補(bǔ)序列、互補(bǔ)反向序列、顯示序列、互補(bǔ)序列、互補(bǔ)反向序列、顯示DNA雙鏈、轉(zhuǎn)換為雙鏈、轉(zhuǎn)換為RNA序列等。序列等。序列基本信息序列基本信息具體序列具體序列顯示轉(zhuǎn)換后的不同序列顯示轉(zhuǎn)換后的不同序列GAATTCGTTAAC輸入內(nèi)切酶的名稱,輸入內(nèi)切酶的名稱,可查詢其識(shí)

9、別序列及可查詢其識(shí)別序列及酶切位點(diǎn)酶切位點(diǎn)載入序列載入序列目標(biāo)目標(biāo)DNA默認(rèn)為線狀,默認(rèn)為線狀,若選擇若選擇“環(huán)狀環(huán)狀”,則出,則出現(xiàn)的酶切圖譜為環(huán)狀?,F(xiàn)的酶切圖譜為環(huán)狀。在在“酶文件酶文件”、“全選全選”、 “長(zhǎng)度長(zhǎng)度”及及“末端末端”等選等選項(xiàng)的選擇都完成后項(xiàng)的選擇都完成后“完完成成”??蛇x“DNase”或“DNA內(nèi)切酶”選擇選擇酶酶甲基化情況甲基化情況分析結(jié)果分析結(jié)果以線狀圖示酶切以線狀圖示酶切位點(diǎn)位點(diǎn)以環(huán)狀圖示酶切以環(huán)狀圖示酶切位點(diǎn)位點(diǎn)每種酶的單酶切電每種酶的單酶切電泳模擬圖泳模擬圖堿基組成序列轉(zhuǎn)換ORF的查找翻譯成相對(duì)應(yīng)的蛋白質(zhì)內(nèi)切酶的識(shí)別顯示序列中的酶切位點(diǎn)顯示序列中的酶切位點(diǎn)打開

10、.ab1文件??奢敵鰹榭奢敵鰹?txt的文本格式文件。的文本格式文件。調(diào)節(jié)按鈕調(diào)節(jié)按鈕導(dǎo)出序列導(dǎo)出序列測(cè)序峰圖導(dǎo)出的文本測(cè)序峰圖導(dǎo)出的文本再再“載入序列載入序列” “選定項(xiàng)目選定項(xiàng)目”后就可后就可以直接載入軟件中分析!以直接載入軟件中分析!調(diào)節(jié)按鈕調(diào)節(jié)按鈕選擇選擇“copy Fasta formatted”,相當(dāng)于將文件中的序列以相當(dāng)于將文件中的序列以Fasta格格式復(fù)制,可黏貼到記事本中。式復(fù)制,可黏貼到記事本中。輸入序列輸入序列發(fā)現(xiàn)載體序列發(fā)現(xiàn)載體序列結(jié)果結(jié)果待拼接序列顯示區(qū)待拼接序列顯示區(qū)某次測(cè)序的結(jié)果有兩個(gè)序列,某次測(cè)序的結(jié)果有兩個(gè)序列,將其拼成一條。將其拼成一條。拼接結(jié)果拼接結(jié)果導(dǎo)出

11、的是拼接后的序列導(dǎo)出的是拼接后的序列粘貼序列粘貼序列結(jié)果鏈接結(jié)果鏈接結(jié)果結(jié)果核酸序列電子延伸示意圖核酸序列電子延伸示意圖ESTEST序列序列種子序列種子序列ESTEST數(shù)據(jù)庫(kù)中數(shù)據(jù)庫(kù)中BlastBlast分析分析開始開始獲得匹獲得匹配序列配序列種子序列與匹種子序列與匹配序列組裝配序列組裝無匹配時(shí)無匹配時(shí)結(jié)束,進(jìn)結(jié)束,進(jìn)行行ORFORF分析分析數(shù)據(jù)庫(kù)參數(shù):應(yīng)選擇數(shù)據(jù)庫(kù)參數(shù):應(yīng)選擇non-human,non-mouse ESTs(est others)物種名參數(shù):寫物種名參數(shù):寫rice或水或水稻拉丁文稻拉丁文得到一致性最高的匹配序得到一致性最高的匹配序列(列(EST序列)序列)(2) 因?yàn)槠ヅ湫?/p>

12、列為EST序列,因此此時(shí)選擇的程序?yàn)椋篵lastn。再次對(duì)水稻ESTdb進(jìn)行比對(duì)。數(shù)據(jù)庫(kù)參數(shù):選擇數(shù)據(jù)庫(kù)參數(shù):選擇others;物種名參數(shù):寫物種名參數(shù):寫rice或水稻拉丁文或水稻拉丁文匹配的匹配的EST序列序列點(diǎn)擊“contigs”,獲得拼裝后的序列。如下圖。(4) 以新生的以新生的contig序列作為種子序列重復(fù)上述過程,直至沒有新的匹配序列作為種子序列重復(fù)上述過程,直至沒有新的匹配序列入選,從而生成最后的新生序列,作為對(duì)種子序列的延伸產(chǎn)物。接序列入選,從而生成最后的新生序列,作為對(duì)種子序列的延伸產(chǎn)物。接下來要對(duì)延伸產(chǎn)物進(jìn)行下來要對(duì)延伸產(chǎn)物進(jìn)行ORF分析,確定分析,確定cDNA的完整性。

13、的完整性。粘貼序列粘貼序列序列序列IDID號(hào)或接受號(hào)號(hào)或接受號(hào)分析范圍分析范圍遺傳密碼遺傳密碼查看結(jié)果查看結(jié)果可點(diǎn)擊詳細(xì)查看可點(diǎn)擊詳細(xì)查看單擊,詳細(xì)查看一個(gè)單擊,詳細(xì)查看一個(gè)ORFORF。進(jìn)一步。進(jìn)一步確定確定ORFORF是否正確需要借助是否正確需要借助KozakKozak規(guī)規(guī)則。則。可直接查看所在可直接查看所在ORF對(duì)對(duì)應(yīng)的蛋白質(zhì)的對(duì)數(shù)據(jù)庫(kù)應(yīng)的蛋白質(zhì)的對(duì)數(shù)據(jù)庫(kù)的比對(duì)的比對(duì)Kozak規(guī)則可以幫助確定規(guī)則可以幫助確定ORF的起始密碼子。的起始密碼子。加尾信號(hào)須自行搜索。加尾信號(hào)須自行搜索。接著查看其他接著查看其他ORFORF前提是已經(jīng)前提是已經(jīng)load load sequencesequence

14、ORFORF的查找要求的查找要求ORFORF的查找結(jié)果,需要認(rèn)真判斷要那個(gè)的查找結(jié)果,需要認(rèn)真判斷要那個(gè)ORFORF序列上載后,也可序列上載后,也可以在這里進(jìn)行分析以在這里進(jìn)行分析圖示圖示ORFORF分析結(jié)果分析結(jié)果設(shè)置設(shè)置ORFORF分析參分析參數(shù)數(shù)雙擊圖示中的雙擊圖示中的ORFORF則顯示則顯示該該ORFORF的詳細(xì)信息的詳細(xì)信息該該ORFORF的詳細(xì)信息的詳細(xì)信息粘貼序列粘貼序列粘貼序列粘貼序列物種選項(xiàng)物種選項(xiàng)粘貼序列粘貼序列p 對(duì)于已知的對(duì)于已知的cDNA序列及其對(duì)應(yīng)的基因組序列,可以將這兩條序序列及其對(duì)應(yīng)的基因組序列,可以將這兩條序列對(duì)齊以直觀顯示列對(duì)齊以直觀顯示cDNA所編碼基因的

15、結(jié)構(gòu)。所編碼基因的結(jié)構(gòu)。pSim4程序即可完成該項(xiàng)工作,分析的結(jié)果可以保存下來用程序即可完成該項(xiàng)工作,分析的結(jié)果可以保存下來用Lalnview程序在電腦上直觀地顯示。程序在電腦上直觀地顯示。Sim4網(wǎng)址:網(wǎng)址:核酸:核酸:http:/pbil.univ-lyon1.fr/sim4.php蛋白:蛋白:http:/www.expasy.ch/tools/sim-prot.htmlLalnview下載地址:下載地址:http:/pbil.univ-lyon1.fr/software/lalnview.html 輸入輸入cDNAcDNA序列序列輸入輸入GenomeGenome序列序列然后然后Submi

16、tSubmit序列要求:序列要求:TTTGATGAAAATCGCTTAGGCCTTGCTCTTCAAACAATCCAGCTTCTTTCACTC對(duì)比結(jié)果對(duì)比結(jié)果TXTTXT格式格式保存文件保存文件a對(duì)保存的文件可用對(duì)保存的文件可用lalnviewlalnview查看查看輸出結(jié)果輸出結(jié)果輸入序列輸入序列說明:主要用于預(yù)測(cè)脊說明:主要用于預(yù)測(cè)脊椎動(dòng)物的啟動(dòng)子椎動(dòng)物的啟動(dòng)子丹麥丹麥輸入序列輸入序列參數(shù)選擇參數(shù)選擇美國(guó)伯克利美國(guó)伯克利/molbio/proscan//molbio/proscan/

17、輸入序列輸入序列沒有參數(shù)可選沒有參數(shù)可選美國(guó)美國(guó)NIH每個(gè)序列最大每個(gè)序列最大1kb,一,一次最多次最多20個(gè)序列個(gè)序列新加坡新加坡http:/www.ebi.ac.uk/asd/index.html綜合綜合http:/splicenest.molgen.mpg.de/綜合綜合/new_alt_exon_db2/綜合綜合5/AsMamDB/哺乳動(dòng)物哺乳動(dòng)物/tigr-scripts/tgi/splnotes.pl?species=humanhttp:/prosplicer.mbc

18、..tw/.au/altExtron人人/kent/intronerator/altsplice.html線蟲線蟲http:/ 序列比對(duì)序列比對(duì)收集序列收集序列評(píng)判的標(biāo)準(zhǔn):評(píng)判的標(biāo)準(zhǔn):來自來自Unigene的高質(zhì)量數(shù)據(jù)的高質(zhì)量數(shù)據(jù)Exon至少有至少有3條條ESTs覆蓋覆蓋Exon周圍有周圍有GT-AG信號(hào)信號(hào)Blast比對(duì)比對(duì)Score值值100相似度相似度95%S.Gupta et al., Genome wide identification and classification of al

19、ternative splicing based on EST data, 2004, 20(16): 2579-2585研究人員對(duì)研究人員對(duì)9292個(gè)犬品種的個(gè)犬品種的1717個(gè)相對(duì)應(yīng)的發(fā)育基因中的重復(fù)區(qū)個(gè)相對(duì)應(yīng)的發(fā)育基因中的重復(fù)區(qū)域進(jìn)行了測(cè)序。域進(jìn)行了測(cè)序。足趾數(shù)目受一種叫做足趾數(shù)目受一種叫做Alx-4Alx-4的基因的控制。的基因的控制。鼻子的長(zhǎng)度與另一種基因鼻子的長(zhǎng)度與另一種基因Runx-2Runx-2中的重復(fù)序列數(shù)目吻合中的重復(fù)序列數(shù)目吻合牧羊犬類品種多了一種特殊的重復(fù)片斷牧羊犬類品種多了一種特殊的重復(fù)片斷哈巴狗類品種則多了另一個(gè)不同的重復(fù)哈巴狗類品種則多了另一個(gè)不同的重復(fù)CpG島分析島分析NoNo調(diào)控序列所在位置調(diào)控序列所在位置Cister結(jié)果:結(jié)果:881- 896 CCAAT881- 896 CCAAT908- 923 CCAAT908- 923 CCAAT轉(zhuǎn)錄終止信號(hào)轉(zhuǎn)錄終止信號(hào)GetOrfGenScan735 - 773 735 - 773 964 - 1020 964 - 1020 10541054 - 1146 - 1146 1112 - 1156 1112 - 1156 1341 - 1625 1341 - 1625 10541054

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論