新基因序列生物信息學(xué)分析_第1頁(yè)
新基因序列生物信息學(xué)分析_第2頁(yè)
新基因序列生物信息學(xué)分析_第3頁(yè)
新基因序列生物信息學(xué)分析_第4頁(yè)
新基因序列生物信息學(xué)分析_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 對(duì)一條新的基因序列進(jìn)行生物信息學(xué)的分析對(duì)一條新的基因序列進(jìn)行生物信息學(xué)的分析論文摘要論文摘要本研究的主要內(nèi)容是運(yùn)用生物信息學(xué)的手段結(jié)合生物學(xué)實(shí)驗(yàn)方法對(duì)從一株產(chǎn) -甘露聚糖酶的新菌種 A.tabescens EJLY2098獲得的新基因序列( 命名為 man)進(jìn)行生物信息學(xué)的分析。針對(duì)然后結(jié)合利用所獲得的信息設(shè)計(jì)生物學(xué)方法證實(shí)其生物學(xué)功能。關(guān)鍵詞:-甘露聚糖酶;A.tabescens EJLY2098;生物信息學(xué) 論文目的和意義論文目的和意義英國(guó)自然雜志網(wǎng)絡(luò)版 2006 年 5 月 18 日?qǐng)?bào)道,科學(xué)家已對(duì)含有 2.23 億個(gè)堿基對(duì),占人類基因組中堿基對(duì)總量的 8%左右的人類第一號(hào)染色體完成測(cè)

2、序,宣告持續(xù) 16 年的人類基因組計(jì)劃全部完成。作為人類自然科學(xué)史上重要的里程碑, “人類基因組”的研究已從“結(jié)構(gòu)基因組”階段進(jìn)入“功能基因組”階段。在人類基因組計(jì)劃后相繼推出的水稻基因組計(jì)劃、馬鈴薯基因組計(jì)劃、草魚(yú)基因組計(jì)劃等,和快速增長(zhǎng)的微生物基因測(cè)序, “海量”的基因信息的積累,催生了“功能基因組”時(shí)代的來(lái)臨。針對(duì)充分利用“海量”基因組信息的生物信息學(xué)不僅應(yīng)運(yùn)而生,而且為以注釋、闡明基因功和利用基因生物學(xué)功能的“后基因組時(shí)代”的研究發(fā)揮了重大作用。生物信息學(xué)是把基因組 DNA 序列信息分析作為源頭,在獲得了蛋白質(zhì)編碼區(qū)的信息后,進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)和模擬,然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行

3、必要的藥物設(shè)計(jì)。就是說(shuō),生物信息學(xué)的主要任務(wù)是組織和分析生物學(xué)數(shù)據(jù),而生物學(xué)數(shù)據(jù)的分析離不開(kāi)計(jì)算機(jī)算法的運(yùn)用。因此,可以說(shuō)生物信息學(xué)是一門(mén)集生命科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)為一身的多學(xué)科交叉的前沿學(xué)科。生物信息學(xué)的主要研究對(duì)象是序列,即一維的分子排列順序所分析,包括 DNA 分子堿基序列和編碼蛋白質(zhì)的氨基酸序列。DNA 序列分析的主要任務(wù)是基因識(shí)別和發(fā)現(xiàn)某些功能區(qū)(如啟動(dòng)子、增強(qiáng)子等),DNA 序列研究的最終目的是說(shuō)明遺傳語(yǔ)言的語(yǔ)法和語(yǔ)法規(guī)則,從而最終讀懂 DNA 序列。蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)研究始終是生物信息學(xué)的核心內(nèi)容之一,目前研究工作是利用一級(jí)結(jié)構(gòu)中的氨基酸排列順序所隱藏的信息來(lái)預(yù)測(cè)蛋白質(zhì)的

4、高級(jí)結(jié)構(gòu),而蛋白質(zhì)結(jié)構(gòu)研究的最終目標(biāo)是闡明肽鏈的折疊規(guī)律,即所謂破譯“第二套生物學(xué)密碼” ?!盎蚪M計(jì)劃”積累了大量生物信息。而生物信息學(xué)的任務(wù)就是挖掘和利用這些信息,從眾多生命信息中發(fā)現(xiàn)統(tǒng)一的,本質(zhì)的,有用的規(guī)律。而這些規(guī)律必將促進(jìn)生命科學(xué),如結(jié)構(gòu)生物學(xué),生物技術(shù),藥物設(shè)計(jì),分子進(jìn)化等研究工作的進(jìn)展。所以,生物信息學(xué)將在“后基因組”的時(shí)代,發(fā)揮極其重要的作用,這將有助于全部讀懂人類基因組的全部信息,有助于揭示基因組物質(zhì)結(jié)構(gòu)的復(fù)雜性,有助于生命起源和生物進(jìn)化問(wèn)題的最終解決,有助于識(shí)別與鑒定人類特定疾病的相關(guān)基因,有助于藥物設(shè)計(jì)理論和方法的改進(jìn)和提高。1-10研究現(xiàn)狀研究現(xiàn)狀隨著信息學(xué)大環(huán)境的改

5、善,如信息高速公路、國(guó)際互聯(lián)網(wǎng)的發(fā)展,生物信息學(xué)發(fā)展迅速。美國(guó)、日本及歐洲各國(guó)的生物信息學(xué)已相繼在Internet 上建立了各自的網(wǎng)絡(luò)節(jié)點(diǎn),進(jìn)行管理大型數(shù)據(jù)庫(kù),為研究人員提供研究數(shù)據(jù)的分析、處理、采集、交換的服務(wù)。國(guó)際互聯(lián)網(wǎng)所到之處,都有各種研究機(jī)構(gòu)的聯(lián)網(wǎng)、數(shù)據(jù)庫(kù)的建立,開(kāi)展生物信息學(xué)研究。各種數(shù)據(jù)庫(kù)各具特色:GenBank、EMBL、DDBJ 是三大核苷酸及蛋白質(zhì)數(shù)據(jù)庫(kù);GDB 數(shù)據(jù)庫(kù)主要收集遺傳學(xué)制圖的資料;CEPH 的數(shù)據(jù)庫(kù)收集 YACcontig;Genethon、CHLC 儲(chǔ)存遺傳學(xué)標(biāo)記系列;Whiethead 研究所的數(shù)據(jù)庫(kù)可了解全部 18000 個(gè) STS 及聯(lián)系作圖的信息;另外

6、還有突變序列的數(shù)據(jù)庫(kù)在建立之中。在各類數(shù)據(jù)庫(kù)建立的同時(shí),數(shù)據(jù)庫(kù)設(shè)計(jì)中出現(xiàn)了集成化趨勢(shì),集成化包括:各類數(shù)據(jù)的集成、數(shù)據(jù)庫(kù)與數(shù)據(jù)分析軟件的整合。各種數(shù)據(jù)庫(kù)分析、測(cè)序應(yīng)用軟件包也被開(kāi)發(fā)出來(lái)。11除了數(shù)據(jù)庫(kù)、數(shù)據(jù)分析軟件的發(fā)展,生物信息學(xué)中比較基因組學(xué)的發(fā)展也較為突出。其中河豚、鼠、豬、牛和馬的基因組與人基因組的比較研究,秀麗隱桿線蟲(chóng)與人基因組的比較研究、酵母與人基因組的比較研究,支原體與嗜血流感桿菌基因組的比較研究,都取得了成果,從比較中分離到一些人類遺傳病的候選基因,鑒定了一些新克隆的基因,為人類基因組的分析提供了有益的數(shù)據(jù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展和滲透,生物信息學(xué)在人類基因組中大規(guī)模測(cè)序的自動(dòng)化

7、控制、測(cè)序結(jié)果分析處理、序列數(shù)據(jù)的計(jì)算機(jī)管理、各類遺傳圖譜、物理圖譜的繪制、研究數(shù)據(jù)網(wǎng)絡(luò)獲取、分析和交換,以數(shù)據(jù)分析的結(jié)果輔助基因組研究等都發(fā)揮著不可替代的功能,顯示出越來(lái)越重要的作用。全長(zhǎng)全長(zhǎng) cDNA 序列序列 man 的生物信息學(xué)分析的生物信息學(xué)分析前言前言隨著因特網(wǎng)在上世紀(jì) 90 年代的出現(xiàn)和信息技術(shù)的迅猛發(fā)展。生命科學(xué)也相伴走向信息化,其主要標(biāo)志就是人類基因組計(jì)劃的實(shí)施,這一計(jì)劃及其相繼展開(kāi)的眾多的基因組計(jì)劃使得生物學(xué)數(shù)據(jù)急劇增加,而傳統(tǒng)的實(shí)驗(yàn)手段卻遠(yuǎn)遠(yuǎn)不能滿足對(duì)這些數(shù)據(jù)的解釋,使之上升到科學(xué)知識(shí)的高度9-10。隨著人類基因組計(jì)劃的實(shí)施 ,分子生物學(xué)家提供了大量的有關(guān)生物分子的數(shù)據(jù),

8、如何將這些從實(shí)驗(yàn)室中取得的生物信息進(jìn)行整理,并能對(duì)以后的研究提供資料和依據(jù),這就需要運(yùn)用到現(xiàn)代計(jì)算機(jī)技術(shù)對(duì)這些原始數(shù)據(jù)進(jìn)行收集,整理和分析,從而是人們?cè)谘芯窟^(guò)程中及時(shí)得到有效的生物信息.因此,生物信息學(xué)不僅是一門(mén)學(xué)科,也是研究過(guò)程中的一項(xiàng)技術(shù)和開(kāi)發(fā)工具.核酸序列分析是生物信息學(xué)應(yīng)用中的一個(gè)重要方面.DNA 序列分析可分兩大類:1.面向測(cè)序的 DNA 序列分析; 2.指定 DNA 序列的分析. 通過(guò)一個(gè)簡(jiǎn)單序列相似性的比較可以對(duì)未知序列進(jìn)行初步的功能預(yù)測(cè),對(duì)后續(xù)實(shí)驗(yàn)確定初步研究方向12。本論文通過(guò)對(duì)從真菌tabescens 中克隆出一個(gè)基因的全長(zhǎng) cDNA 進(jìn)行生物信息的分析,預(yù)測(cè)這個(gè)未知 cD

9、NA 的功能目前因特網(wǎng)上有許多生物學(xué)信息庫(kù),采用不同的算法,對(duì)生物學(xué)數(shù)據(jù)進(jìn)行從序列水平到結(jié)構(gòu)層次,進(jìn)而到功能的多種分析。本章的分析主要利用這些數(shù)據(jù)庫(kù)和相關(guān)軟件完成。材料和儀器材料和儀器(1)生物技術(shù)實(shí)驗(yàn)室從一株產(chǎn) -甘露聚糖酶的新菌種 A.tabescens EJLY2098 克隆出一個(gè)全長(zhǎng) cDNA(命名為 man)(2)可以連接國(guó)際互聯(lián)網(wǎng)的計(jì)算機(jī)核酸序列的基本分析核酸序列的基本分析運(yùn)用 DNAMAN 軟件分析核酸序列的分子質(zhì)量、堿基組成和堿基分布。同時(shí)運(yùn)用 BioEdit(版本 )軟件對(duì) manman 做酶切譜分析。堿基同源性分析運(yùn)用運(yùn)用 NCBI 信息庫(kù)的信息庫(kù)的 BLAS

10、T 程序?qū)Τ绦驅(qū)?manman 進(jìn)行堿基同源性分進(jìn)行堿基同源性分析(Translated query tien database(blastx)網(wǎng)站如下:/BLAST/參數(shù)選擇:TRANSLATED query-PROTEIN database blastx; nr;stander1開(kāi)放性閱讀框(開(kāi)放性閱讀框(ORFORF)分析)分析利用 NCBI 的 ORF Finder 程序?qū)?man 做開(kāi)放性閱讀框分析,網(wǎng)址如下:/projects/gorf/orfig.cgi參數(shù)選擇:G

11、enetic Codes:1 Standard對(duì)蛋白質(zhì)序列的結(jié)構(gòu)功能域分析對(duì)蛋白質(zhì)序列的結(jié)構(gòu)功能域分析運(yùn)用簡(jiǎn)單模塊構(gòu)架搜索工具(Simple Modular Architecture Research Tool,SMART)對(duì) manORF 出的蛋白質(zhì)序列進(jìn)行蛋白質(zhì)結(jié)構(gòu)功能域分析。該數(shù)據(jù)庫(kù)由 EMBL 建立,其中集成了大部分目前已知的蛋白質(zhì)結(jié)構(gòu)功能域的數(shù)據(jù)。12網(wǎng)址如下:http:/smart.embl-heidelberg.de/運(yùn)用運(yùn)用 NCBI 的的 BLAST 程序再對(duì)此蛋白質(zhì)序列進(jìn)行程序再對(duì)此蛋白質(zhì)序列進(jìn)行 rpsBlast 分分析析參數(shù)選擇:Search Database:CDD

12、v2.0711937PSSMs Expect:0.01 Filter:Low complexitySearch mode:multiple hits 1pass同源物種分析同源物種分析用 DNAMAN 軟件將蛋白質(zhì)序列與 GHF5 的 -甘露聚糖酶序列和GHF6 的 -甘露聚糖酶序列序列比對(duì),根據(jù)結(jié)果繪出系統(tǒng)進(jìn)化樹(shù),并進(jìn)行分析。蛋白質(zhì)一級(jí)序列的基本分析蛋白質(zhì)一級(jí)序列的基本分析運(yùn)用 BioEdit(版本 )軟件對(duì) man ORF 翻譯的蛋白的一些基本性質(zhì),對(duì)分子量、等電點(diǎn)、氨基酸組成等作出分析。二級(jí)結(jié)構(gòu)和功能分析二級(jí)結(jié)構(gòu)和功能分析信號(hào)肽預(yù)測(cè)信號(hào)肽預(yù)測(cè)利用丹麥科技大學(xué)(DTU)的 C

13、BS 服務(wù)器蛋白質(zhì)序列的信號(hào)肽(signal peptide)預(yù)測(cè),進(jìn)入 Prediction Serves 頁(yè)面。網(wǎng)址如下:http:/www.cbs.dtu.dk/services/SignalP/參數(shù)選擇:Eukaryotes;Both;GIF (inline);Standard;疏水性分析疏水性分析利用瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics, SIB)的 ExPASy 服務(wù)器上的 ProtScale 程序13對(duì) ORF 翻譯后的氨基酸序列做疏水性分析網(wǎng)址如下:/cgi-bin/protscale.p

14、l參數(shù)選擇:Hphob. / Kyte & Doolittle蛋白質(zhì)溶解能力和 PROSITE motif search 的分析利用美國(guó)哥倫比亞大學(xué)(Columbia University)的 PredictProtein 服務(wù)器(PHD)14對(duì) ORF 翻譯后的氨基酸序列通過(guò)發(fā)郵件的方式獲得蛋白質(zhì)溶解能力和 PROSITE motif search 分析的結(jié)果。網(wǎng)址如下:/pp/submit_def.html磷酸化位點(diǎn)分析磷酸化位點(diǎn)分析磷酸化和去磷酸化是細(xì)胞內(nèi)信號(hào)傳導(dǎo)的重要方式,利用丹麥科技大學(xué)(DTU)的 CBS 服務(wù)器上的 Net

15、Phos2.0 Server 程序15做磷酸化位點(diǎn)分析。NetPhos2.0 Server 程序是基于神經(jīng)網(wǎng)絡(luò)算法,對(duì)蛋白序列中的 Ser、Thr 和 Tys 三種氨基酸殘基可能成為的磷酸化位點(diǎn)作出預(yù)測(cè),網(wǎng)址如下:http:/www.cbs.dtu.dk/services/NetPhos/跨膜區(qū)分析跨膜區(qū)分析蛋白質(zhì)序列含有跨膜區(qū)提示它可能作為膜受體起作用,也可能是定位于膜的錨定蛋白或者離子通道蛋白等,從而,含有跨膜區(qū)的蛋白質(zhì)往往和細(xì)胞的功能狀態(tài)密切相關(guān)。12利用丹麥科技大學(xué)(DTU)的 CBS 服務(wù)器上的 TMHMM Server v. 2.0 程序進(jìn)行蛋白序列跨膜區(qū)分析。網(wǎng)址如下:http:

16、/www.cbs.dtu.dk/services/TMHMM/參數(shù)選擇:Extensive with graphics亞細(xì)胞定位亞細(xì)胞定位通過(guò) WoLF PSORT 工具基于其氨基酸序列預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位點(diǎn)網(wǎng)址如下:http:/wolfpsort.seq.cbrc.jp/參數(shù)選擇:Fungi;From Text Area二硫鍵分析二硫鍵分析運(yùn)用 SCRATCH Protein Predictor 對(duì)蛋白質(zhì)的二硫鍵做出分析。網(wǎng)址如下:/baldig/scratch/index.html 參數(shù)選擇:Dlpro(Disulfide Bonds) 二級(jí)結(jié)構(gòu)預(yù)

17、測(cè)二級(jí)結(jié)構(gòu)預(yù)測(cè)運(yùn)用 PBIL LYON-GERLAND 信息庫(kù)對(duì)蛋白質(zhì)序列進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)(Secondary structure prediction) ,主要用 Hopfield 神經(jīng)網(wǎng)絡(luò)(HNN)預(yù)測(cè)。網(wǎng)址如下:http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_hnn.html討論與結(jié)果討論與結(jié)果從一株產(chǎn) -甘露聚糖酶的新菌種 A.tabescens EJLY2098 獲得的全長(zhǎng) cDNA 序列如下:ACGCGGGGGAAAGATGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGT

18、GCTCTGCGTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCA

19、ACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAA

20、TTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACAT

21、ATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGTCTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCAT

22、CCGGAGCTACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCTATGCGGTTACATTGAAAGCGCGGGCGTAGTAGGATAGGGTACAGAATAAAAATAAATTTTGCTCCGATGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAAATAAAAATAGCACTGTTGTCACGATCGATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA核酸序列的基本分析核酸序列的基本分析核酸序列的基本分析結(jié)果如下:SEQ New: 1483 bp;Compo

23、sition 388 A; 358 C; 351 G; 386 T; 0 OTHERPercentage: 26.2% A; 24.1% C; 23.7% G; 26.0% T; 0.0%OTHERMolecular Weight (kDa): ssDNA: 457.73 dsDNA: 914.24ORIGIN1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC121 TTGCG

24、TTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA361 CTGGGTCGGG TTGATGGGCT ATAGCAC

25、TAC AGATATGAAT AAAGCCTTCG CAGACATCGC421 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAAC

26、C AAATTGTCGG661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA901 TCTTGTCG

27、GG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA1141 GGAGTTTGGA GTCACCACTA ATCAAGC

28、AAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT1201 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGC

29、ACTGT TGTCACGATC1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA對(duì)其所做對(duì)其所做的酶切譜分析結(jié)果如下: 對(duì) DQ286392 的酶切圖(見(jiàn)附錄 1) 單酶切統(tǒng)計(jì),見(jiàn)下表:Restriction table:Enzyme Recognition frequency Positions_AccI GTmk_AC 2 258, 640AloI GAACnnnnnnTCCnnnnnnn_nnnnn 1 632AloI GGAnnnnnnGTTCnnnnnnn_nnnnn 1 600AlwI GGATCnnnnn_ 5 833, 8

30、85, 1056, 1095, 1290ApoI rAATT_y 3 333, 992, 1368BanI GGyrC_C 4 327, 348, 429, 1179BbeI G_GCGCC 2 352, 1183BbsI GAAGACnnnnnn_ 1 531BbvI GCAGCnnnnnnnnnnnn_ 7 53, 156, 551, 554, 557, 560, 1103BceAI ACGGCnnnnnnnnnnnnnn_ 3 199, 211, 540BcgI CGAnnnnnnTGCnnnnnnnnnn_nn 3 1003, 998, 1294BcgI GCAnnnnnnTCGnnn

31、nnnnnnn_nn 3 969, 1032, 1260BclI TGATC_A 1 1094BfrBI ATGCAT 1 17BglI GCCn_nnnnGGC 1 91BmrI ACTGGGnnnn_n 1 371BpuEI CTTGAGnnnnnnnnnnnnnn_nn 1 605BsaHI GrCG_yC 2 349, 1180BsaJI CCnnG_G 2 859, 1309BsaWI wCCGG_w 3 501, 1254, 1265BsaXI ACnnnnnCTCCnnnnnnn_nnn 1 215BsaXI GGAGnnnnnGTnnnnnnnnn_nnn 1 185BseMI

32、I CTCAGnnnnnnnn_nn 3 30, 67, 1080BseRI GAGGAGnnnnnnnn_nn 1 1155BseYI CCCAG_C 1 1045BsgI GTGCAGnnnnnnnnnnnnnn_nn 1 559BsiEI CG_ryCG 3 199, 889, 1440BsiHKAI G_wGCwC 2 57, 1223BslI CCnn_nnnnnGG 4 81, 449, 963, 1272BsmAI GTCTCnnnnn_ 3 40, 743, 1205BsmBI CGTCTCnnnnn_ 1 743BsmFI GGGACnnnnnnnnnnnnnn_ 1 827

33、Bsp1286I G_dGChC 2 57, 1223BspCNI CTCAGnnnnnnn_nn 3 31, 68, 1079BspEI TCCGG_A 3 501, 1254, 1265BsrI ACTG_Gn 4 290, 366, 618, 1220BsrBI CCGCTC 2 201, 1399BsrDI GCAATG_nn 1 1089BstF5I GGATG_nn 4 108, 641, 1077, 1251BstZ17I GTATAC 1 641Bsu36I CCTnA_GG 1 1066BtgI CCryG_G 1 859BtsI GCAGTG_nn 1 832Cac8I G

34、CnnGC 4 25, 781, 1234, 1345ClaI ATCG_AT 3 889, 979, 1440EaeI yGGCC_r 3 184, 196, 997EagI CGGCC_G 1 196EarI CTCTTCnnnn_ 1 1208EciI GGCGGAnnnnnnnnn_nn 1 306FauI CCCGCnnnnnn_ 2 1112, 1336FokI GGATGnnnnnnnnnnnnn_ 4 115, 648, 1084, 1238FspI TGCGCA 2 143, 673HaeII r_GCGCy 2 352, 1183Hin4I GAynnnnnvTCnnnnn

35、nnn_nnnnn 3 690, 1079, 1111Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn 3 722, 1079, 1111HincII GTyrAC 2 259, 647HpaI GTTAAC 1 647HphI GGTGAnnnnnnn_n 1 1145Hpy8I GTnnAC 5 259, 510, 641, 647, 752Hpy188III TCnn_GA 10 75, 502, 728, 823, 908, 1191 1255, 1266, 1290, 1435HpyF10VI GCn_nnnnnnGC 11 67, 92, 418, 430, 452,

36、 562, 571 574, 871, 997, 1099KasI GGCGC_C 2 348, 1179MboII GAAGAnnnnnnn_n 5 223, 271, 335, 531, 1195MlyI GAGTCnnnnn 2 479, 1159MmeI TCCrACnnnnnnnnnnnnnnnnnn_nn 1 643MnlI CCTCnnnnnn_n 9 311, 330, 455, 580, 692, 830, 1075 1133, 1328MscI TGGCCA 1 999MslI CAynnnnrTG 1 50MspA1I CmGCkG 3 861, 1045, 1116Mw

37、oI GCnn_nnnnnGC 11 66, 91, 417, 429, 451, 561, 570 573, 870, 996, 1098NarI GGCG_CC 2 349, 1180NlaIV GGnnCC 5 84, 329, 350, 431, 1181NsiI A_TGCAT 1 19PleI GAGTCnnnnn_ 2 478, 1158PshAI GACnnnnGTC 1 735PvuI CG_ATCG 2 889, 1440PvuII CAGCTG 2 1045, 1116SacII CC_GCGG 1 862SalI GTCGA_C 1 257SfaNI GCATCnnnn

38、nnnnn_ 5 4, 26, 542, 786, 977SfcI CTryA_G 4 380, 388, 424, 1389SfoI GGCGCC 2 350, 1181SmlI CTyrA_G 1 584TatI wGTAC_w 2 42, 507TspDTI ATGAAnnnnnnnnn_nn 5 411, 732, 802, 934, 949TspGWI ACGGAnnnnnnnnn_nn 1 1288TspRI _nnCAsTGnn 3 839, 1064, 1432Enzymes that cut five or fewer timesEnzyme Recognition freq

39、uency Positions_AccI GTmk_AC 2 258, 640AloI GAACnnnnnnTCCnnnnnnn_nnnnn 1 632AloI GGAnnnnnnGTTCnnnnnnn_nnnnn 1 600AlwI GGATCnnnnn_ 5 833, 885, 1056, 1095, 1290ApoI rAATT_y 3 333, 992, 1368BanI GGyrC_C 4 327, 348, 429, 1179BbeI G_GCGCC 2 352, 1183BbsI GAAGACnnnnnn_ 1 531BceAI ACGGCnnnnnnnnnnnnnn_ 3 19

40、9, 211, 540BcgI CGAnnnnnnTGCnnnnnnnnnn_nn 3 1003, 998, 1294BcgI GCAnnnnnnTCGnnnnnnnnnn_nn 3 969, 1032, 1260BclI TGATC_A 1 1094BfrBI ATGCAT 1 17BglI GCCn_nnnnGGC 1 91BmrI ACTGGGnnnn_n 1 371BpuEI CTTGAGnnnnnnnnnnnnnn_nn 1 605BsaHI GrCG_yC 2 349, 1180BsaJI CCnnG_G 2 859, 1309BsaWI wCCGG_w 3 501, 1254,

41、1265BsaXI ACnnnnnCTCCnnnnnnn_nnn 1 215BsaXI GGAGnnnnnGTnnnnnnnnn_nnn 1 185BseMII CTCAGnnnnnnnn_nn 3 30, 67, 1080BseRI GAGGAGnnnnnnnn_nn 1 1155BseYI CCCAG_C 1 1045BsgI GTGCAGnnnnnnnnnnnnnn_nn 1 559BsiEI CG_ryCG 3 199, 889, 1440BsiHKAI G_wGCwC 2 57, 1223BslI CCnn_nnnnnGG 4 81, 449, 963, 1272BsmAI GTCT

42、Cnnnnn_ 3 40, 743, 1205BsmBI CGTCTCnnnnn_ 1 743BsmFI GGGACnnnnnnnnnnnnnn_ 1 827Bsp1286I G_dGChC 2 57, 1223BspCNI CTCAGnnnnnnn_nn 3 31, 68, 1079BspEI TCCGG_A 3 501, 1254, 1265BsrI ACTG_Gn 4 290, 366, 618, 1220BsrBI CCGCTC 2 201, 1399BsrDI GCAATG_nn 1 1089BstF5I GGATG_nn 4 108, 641, 1077, 1251BstZ17I

43、GTATAC 1 641Bsu36I CCTnA_GG 1 1066BtgI CCryG_G 1 859BtsI GCAGTG_nn 1 832Cac8I GCnnGC 4 25, 781, 1234, 1345ClaI ATCG_AT 3 889, 979, 1440EaeI yGGCC_r 3 184, 196, 997EagI CGGCC_G 1 196EarI CTCTTCnnnn_ 1 1208EciI GGCGGAnnnnnnnnn_nn 1 306FauI CCCGCnnnnnn_ 2 1112, 1336FokI GGATGnnnnnnnnnnnnn_ 4 115, 648,

44、1084, 1238FspI TGCGCA 2 143, 673HaeII r_GCGCy 2 352, 1183Hin4I GAynnnnnvTCnnnnnnnn_nnnnn 3 690, 1079, 1111Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn 3 722, 1079, 1111HincII GTyrAC 2 259, 647HpaI GTTAAC 1 647HphI GGTGAnnnnnnn_n 1 1145Hpy8I GTnnAC 5 259, 510, 641, 647, 752KasI GGCGC_C 2 348, 1179MboII GAAGAnnnnn

45、nn_n 5 223, 271, 335, 531, 1195MlyI GAGTCnnnnn 2 479, 1159MmeI TCCrACnnnnnnnnnnnnnnnnnn_nn 1 643MscI TGGCCA 1 999MslI CAynnnnrTG 1 50MspA1I CmGCkG 3 861, 1045, 1116NarI GGCG_CC 2 349, 1180NlaIV GGnnCC 5 84, 329, 350, 431, 1181NsiI A_TGCAT 1 19PleI GAGTCnnnnn_ 2 478, 1158PshAI GACnnnnGTC 1 735PvuI CG

46、_ATCG 2 889, 1440PvuII CAGCTG 2 1045, 1116SacII CC_GCGG 1 862SalI GTCGA_C 1 257SfaNI GCATCnnnnnnnnn_ 5 4, 26, 542, 786, 977SfcI CTryA_G 4 380, 388, 424, 1389SfoI GGCGCC 2 350, 1181SmlI CTyrA_G 1 584TatI wGTAC_w 2 42, 507TspDTI ATGAAnnnnnnnnn_nn 5 411, 732, 802, 934, 949TspGWI ACGGAnnnnnnnnn_nn 1 128

47、8TspRI _nnCAsTGnn 3 839, 1064, 1432Enzymes that do not cut:_AarI, AatII, Acc65I, AclI, AfeI, AflII, AflIII, AgeI, AhdI, AleI, AlwNI, ApaIApaLI, AscI, AseI, AsiSI, AvaI, AvrII, BaeI, BaeI, BamHI, BanII, BbvCI, BciVIBglII, BlpI, Bme1580I, BmgBI, BmtI, BplI, BpmI, Bpu10I, BsaI, BsaAI, BsaBI, BsiWIBsmI,

48、 BspHI, BspMI, BsrFI, BsrGI, BssHII, BssSI, BstAPI, BstBI, BstEII, BstXIBstYI, DraI, DraIII, DrdI, Eco57I, EcoICRI, Eco57MI, EcoNI, EcoO109I, EcoRI, EcoRVFalI, FseI, FspAI, HgaI, HindIII, KpnI, MfeI, MluI, NaeI, NcoI, NdeI, NgoMIV, NheINotI, NruI, NspI, PacI, PciI, PflMI, PmeI, PmlI, PpiI, PpiI, Ppu

49、MI, PsiI, PspOMIPsrI, PsrI, PstI, RsrII, SacI, SanDI, SapI, SbfI, ScaI, SexAI, SfiI, SgrAI, SmaISnaBI, SpeI, SphI, SrfI, SspI, StuI, StyI, SwaI, TaqII, TaqII, Tth111I, XbaI, XcmIXhoI, XmaI, XmnI, ZraI堿基同源性分析堿基同源性分析DQ286392序列的BLASTX分析結(jié)果(見(jiàn)圖1): 圖1 DQ286392序列的BLASTX分析結(jié)果 Score ESequences producing signif

50、icant alignments: (Bits) Valuegi|82659769|gb|ABB88954.1| mannanase Armillariella tabescens 768 0.0 gi|7208638|emb|CAB76904.1| CEL4a mannanase Agaricus bisporus 532 2e-149gi|1679597|emb|CAA90423.1| CEL4b mannanase Agaricus bisporus 528 3e-148gi|110627661|gb|ABG79370.1| Man5D Phanerochaete chrysospori

51、um 513 1e-143gi|116508737|gb|EAU91632.1| hypothetical protein CC1G_09314 . 473 2e-131gi|110627663|gb|ABG79371.1| Man5C Phanerochaete chrysosporium 467 6e-130gi|119485791|ref|XP_001262238.1| endo-1,4-beta-mannosidase, p. 278 6e-73 gi|121715087|ref|XP_001275153.1| endo-1,4-beta-mannosidase, p. 277 9e-

52、73 gi|70983951|ref|XP_747501.1| endo-1,4-beta-mannosidase Asper. 272 4e-71 gi|70982592|ref|XP_746824.1| endo-1,4-beta-mannosidase Asper. 261 7e-68 gi|84621433|gb|ABC59553.1| beta-mannanase Aspergillus sulphureu 260 2e-67 gi|83775912|dbj|BAE66031.1| unnamed protein product Aspergillus 258 8e-67 gi|55

53、8311|gb|AAA67426.1| mannanase 254 7e-66 gi|119488588|ref|XP_001262744.1| endo-1,4-beta-mannosidase N. 252 3e-65 gi|115402327|ref|XP_001217240.1| hypothetical protein ATEG_08. 250 2e-64 (以下省略)由分析結(jié)果可知,DQ286392 和其他物種的 -甘露聚糖酶相似性最高,尤其是與 Agaricus bisporus 物種的 CEL4a 和 CEL4b 的 -甘露聚糖酶的相同性達(dá)到 64%和 63%,相似性均達(dá)到 7

54、6%。以下是 DQ286392 分別與 CEL4a 和 CEL4b 序列對(duì)比:gi|7208638|emb|CAB76904.1| CEL4a mannanase Agaricus bisporusLength=439 Score = 532 bits (1371), Expect = 2e-149 Identities = 284/442 (64%), Positives = 339/442 (76%), Gaps = 7/442 (1%) Frame = +2Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatt

55、taa 202 + F+ L+ + A A VP WGQCGG GWTG+T C SG+ C N+YSQC+PG+ T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRGWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T+ + T+ +T GFV SGT F LNG K+T+ G NSYWVGL G Sbjct 65 PPTTTTSQTTAPPTTSHPVST-GFVKASGTRFTLNGQ

56、KYTVVGGNSYWVGLTGL 117Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST+ MN+AF+DIA G T VRTWGFNEVTSPNG YYQSWSG+ PTINTG+GL NFD V+Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 7

57、42 AAA A+G+RLIVA+TNNW+DYGGMDVYVNQ+VG+G HDLFYT+ + + +YV+TFVSSbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVS 237Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT+ WELANEPRCKGSTGTTSG+CT TT+T WA +SA+IK+ID NHLV IGDESbjct 238 RYANEPTVMAWELANEPRCKGSTG

58、TTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN+P APTYPYQGSEG+DF+ANLAISS+DF TFHSYP WGQ D + WGTQWI DHASbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGAL

59、IWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W+ EV SSGLTG LIWQAGS+LS+G T +DGYASbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEVESSGLTGDLIWQAGSHLSTGDTHNDGYA 417Query 1283 IYPDDPVYSLETSYAVTLKARA 1348 +YPD PVY L S+A +K RASbjct 418 VYPDGPVYPLMKSHASAMKNRA 439gi|1679597|emb|CAA90423.1| CEL4b mannanase Agaricus b

60、isporusLength=439 Score = 528 bits (1360), Expect = 3e-148 Identities = 280/442 (63%), Positives = 336/442 (76%), Gaps = 7/442 (1%) Frame = +2Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 + F+ L+ + A A VP WGQCGG WTG+T C SG+ C N+YSQC+PG+ T T Sbjct 5 IRFIILAISISLATADVPVWGQC

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論