遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討_第1頁(yè)
遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討_第2頁(yè)
遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討_第3頁(yè)
遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討_第4頁(yè)
遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、遺傳算法背景下人工信號(hào)肽優(yōu)化設(shè)計(jì)探討摘要:為提高信號(hào)肽以及識(shí)別信號(hào)肽拼接精度,在結(jié)構(gòu)融合度特征的基礎(chǔ)上,構(gòu)建氨基酸綜合替代矩陣和 馬爾科夫轉(zhuǎn)移矩陣,對(duì)不分泌/極低分泌的信號(hào)肽序列進(jìn)行人工調(diào)整和優(yōu)化設(shè)計(jì)結(jié)果表明:通過(guò)尋找信號(hào)肽 中不同位置氨基酸的偏向性選取趨勢(shì),能夠確定影響蛋白質(zhì)分泌水平的關(guān)鍵氨基酸,提高了外源蛋白質(zhì)高分 泌表達(dá)信號(hào)肽拼接準(zhǔn)確度關(guān)鍵詞:信號(hào)肽;馬爾科夫轉(zhuǎn)移矩陣;特征向量;人工優(yōu)化序列;遺傳算法0引言隨著科研水平的提高,發(fā)現(xiàn)信號(hào)肽對(duì)于蛋白質(zhì)的定位有著非常重要的作用,使得信號(hào)肽的研究成為 各大科研工作者的研究熱點(diǎn)。例如,使用枯草芽孢桿菌進(jìn)行過(guò)分泌試驗(yàn)的外源蛋白試驗(yàn)時(shí),出現(xiàn)不同水 平分

2、泌表達(dá),通過(guò)構(gòu)建重組質(zhì)粒并轉(zhuǎn)化到枯草芽孢桿菌WB800N中進(jìn)行誘導(dǎo)表達(dá)。此外,宮悅等 研究表明影響蛋白質(zhì)分泌水平一般為信號(hào)肽中的幾個(gè)關(guān)鍵氨基酸陳龍冠等認(rèn)為通過(guò)對(duì)信號(hào)肽序 列進(jìn)行調(diào)整或重新設(shè)計(jì)可在一定程度上提高外源蛋白質(zhì)的分泌表達(dá)量。因此,本文在信號(hào)肽序列的優(yōu) 化設(shè)計(jì)范圍內(nèi),嘗試對(duì)信號(hào)肽SacB中H-domain的部分氨基酸進(jìn)行調(diào)整和替換,再拼接地衣芽孢桿菌* -淀粉酶的蛋白質(zhì)主鏈,然后提取拼接序列的結(jié)構(gòu)融合度特征與可分泌蛋白進(jìn)行相似性比較,從中找出 相似性較高的優(yōu)化序列。1基于遺傳算法的人工信號(hào)肽設(shè)計(jì)研究 1.1構(gòu)建氨基酸綜合替代矩陣根據(jù)Blosum62氨基酸替代矩陣,盡可能不改變氨基酸的疏水

3、性進(jìn)行構(gòu)建氨基酸綜合替代矩陣 首先對(duì)氨基酸替代矩陣和疏水性矩陣進(jìn)行標(biāo)準(zhǔn)化處理,過(guò)程如下%khnmax-() - min-(其中 %-( k = 1,.,20; h = 1,.,20)為原始數(shù)據(jù),&-(- = 1,.,20; h = 1,.,20)為標(biāo)準(zhǔn)化以后的 數(shù)據(jù)。替換得分在標(biāo)準(zhǔn)化以后的矩陣上進(jìn)行計(jì)算,替換得分可以表示為每個(gè)替換氨基酸在不同矩陣中 的比重,比如在Blosum62氨基酸替代矩陣中占60%( T1 = 0.6),在疏水性矩陣中占40%( % = 0.4)。對(duì) 于不同的替代矩陣,T1和“2可以取不同的權(quán)值。f.j = T1V, ( T28 初其中a初分別為標(biāo)準(zhǔn)化以后的氨基酸替代矩陣

4、和疏水性矩陣中第5行第j列中的元素,相應(yīng)地為綜合替換矩陣中第5行第j列中的元素。本文取皿=0.5,W2= 0.5,得到綜合得分矩陣如表1所示。表1氨基酸替換綜合得分矩陣RKDESQGTHACMPVLIYFWR0.630.450.150.270.060.120.18-0.050.010.070.01-0.17 -0.09 -0.15-0.22-0.15-0.22-0.20-0.32 -0.37K0.430.620.200.37-0.07-0.00-0.00-0.00-0.18 -0.10 -0.10-0.17-0.17-0.23-0.22-0.33 -0.38D20.400.05-0.00-0.

5、00-0.05-0.10 -0.16 -0.06-0.16-0.27-0.22-0.22-0.27 -0.38E0.250.310.420.580.140.080.19-0.03-0.030.03-0.03-0.19 -0.14 -0.08-0.14-0.25-0.25-0.19-0.31 -0.36S-0.17-0.09-0.01-0.010.520.330.080.230.000.00-0.08-0.15-0.15-0.15-0.24-0.24 -0.48-0.09-0.09-0.04-0.090.300.560.210.06-0.07 -0.02 -0.02-0.15-0.15-0.15

6、-0.19-0.24 -0.45Q-0.03-0.03-0.100.050.110.090.150.09-0.120.070.01-0.14-0.14-0.20-0.16-0.28 -0.39G-0.27-0.27-0.12-0.170.330.330.230.63-0.02 -0.020.03-0.02-0.17-0.17-0.22-0.22 -0.27T-0.30-0.30-0.30-0.3000.030.670.000.00-0.17-0.17 -0.37H-0.24-0.29-0.29-00.160.070.170.620.170.020.070.07-0.08

7、-0.08-0.080.05-0.09 -0.33A-0.29-0.29-0.37-0.290.250.080.130.510.080.010.01-0.17-0.17 -0.44C-0.37-0.37-0.28-0.320.04-0.03-0.03-0.030.130.050.160.590.210.030.000.00-0.25M-0.36-0.36-0.41-0.35-0.00-0.060.06-0.130.070.010.070.140.520.080.270.260.20-0.000.06-0.07P-0.35-0.30-0.23-0.23-0.020.010.060.010.060

8、.080.130.040.150.560.150.040.040.04-0.08-0.15V-0.46-0.39-0.39 -0.31-0.10-0.17 -0.10-0.100.11-10.330.110.540.330.470.110.04-0.17L-0.36-0.36-0.48 -0.42-0.07-0.13 -0.07-0.200.06-0.060.060.130.320.010.330.520.390.130.20-0.00I-0.41-0.41-0.41 -0.41-0.13-0.13 -0.13-0.190.07-0.060.070.140.260.010.460.400.52

9、0.140.20-0.06Y-0.36-0.36-0.34 -0.29-0.11-0.11 -0.06-0.16-0.040.16-0.040.020.070.030.590.390.22F-0.39-0.39-0.34 -0.34-0.07-0.12 -0.12-0.12-0.010.04-0.010.050.15-0.000.410.560.25W-0.30-0.30-0.29 -0.25-0.10-0.14 -0.07-0.02-0.02-0.02-0.050.030.110.010.060.280.661.2 構(gòu)建Markov轉(zhuǎn)移矩陣本文把信號(hào)肽序列上的狀態(tài)分布轉(zhuǎn)移行為用20 h 20

10、的轉(zhuǎn)移頻次矩陣M描述,依次以鏈上兩個(gè)相 鄰的氨基酸為行和列,可構(gòu)造反映二肽組成情況的鄰接矩陣。設(shè)如=( ( X,U,Z) )表示序列上的一系 列狀態(tài)關(guān)系,其中X是前一個(gè)氨基酸,U是后一個(gè)氨基酸,z是從X到U的轉(zhuǎn)移次數(shù),即在轉(zhuǎn)移頻次矩陣 中,第5行(對(duì)應(yīng)氨基酸X)第j列(對(duì)應(yīng)氨基酸U)的元素值是z,這樣一條序列中的所有二肽都會(huì)顯示 在矩陣中,將大量同一種屬的信號(hào)肽序列的轉(zhuǎn)移行為全部統(tǒng)計(jì)出來(lái),就得到馬爾科夫轉(zhuǎn)移頻次矩陣。由于枯草芽孢桿菌屬于屬于革蘭氏陽(yáng)性真細(xì)菌,因此在信號(hào)肽標(biāo)準(zhǔn)數(shù)據(jù)集(http: /www.cbs.dtu.dk/ ftp/signalp)中選擇Gram + bacteria的140

11、個(gè)分泌蛋白信號(hào)肽序列,計(jì)算得到馬爾科夫頻次矩陣如表2 所示。表2馬爾科夫轉(zhuǎn)移頻次矩陣RKDESNQGTHACMPVLIYFWR3628321241813424235111794133K31650512171211186250932224233124D36121202305000432120E260033214013013613120S17122225116162825149133672342131N81542863215115137886341Q354275816326025204210續(xù)表2RKDESNQGTHACMPVLIYFWG750219641624162188275114191T89

12、552557162309014112846144132H221141205012012130121A15196758131358481011148255990233314C02004003002222595030M205517221765124221371127113110P7313136261213207716216470V10154437673618252515153557267201L141613628453502101916285998345373I131802265421221326772130211190Y14229404018111140020F81812162611153302

13、551837191103W011010011050105520101.3基于遺傳算法的人工序列設(shè)計(jì)使用 si_nalP3.0-HMM( http: /www.cbs.dtu.dk/services/SignalP/)分析枯草芽孢桿菌果聚糖蔗糖酶 (SacB)天然信號(hào)肽中三個(gè)區(qū)域的分布范圍,根據(jù)分析結(jié)果,信號(hào)肽SacB的H區(qū)包括位于第11-22的氨 基酸殘基,然后對(duì)H區(qū)的12個(gè)氨基酸殘基進(jìn)行替換。運(yùn)用遺傳算法結(jié)合適應(yīng)值函數(shù),實(shí)現(xiàn)對(duì)信號(hào)肽的 人工優(yōu)化設(shè)計(jì)。最終得到信號(hào)肽SacB的H區(qū)不同位置可能替代的氨基酸,如表3所示。表3信號(hào)肽SacB中不同位置的可替換氨基酸序列位置11121314151617

14、1819202122原始氨基酸TVLTFTTALLAG可替換氨基酸TVLIMV L ITFTTAVLIMV L IASNG根據(jù)表3進(jìn)行替換后共得到432( 3 h 4 h 3 h 4 h 3)條未知信號(hào)肽序列。這樣就把優(yōu)化候選信號(hào) 肽的序列數(shù)量大大縮減,然后通過(guò)數(shù)值實(shí)驗(yàn)分析和尋找關(guān)鍵氨基酸的位置。1.4 SacB酶活性測(cè)定枯草芽孢桿菌果聚糖蔗糖酶信號(hào)肽(SacB)和優(yōu)化后基因序列克隆體(SacB2)委托生工生物工程 (上海)有限公司進(jìn)行全基因合成,連接到地衣芽孢桿菌*-淀粉酶主鏈,分別得到菌載體amy-SacB和 amy-SacB2。將兩桿菌載體接種于LB培養(yǎng)基試管中30 t培養(yǎng),8 h后轉(zhuǎn)移

15、至MMCH培養(yǎng)基中,加入 5%蔗糖溶液,24 h后取樣,在4 000 20(下離心,取上清液根據(jù)還原糖DNS法在54。處測(cè)定酶活(Q! 值)2 實(shí)驗(yàn)與結(jié)果分析2.1蛋白序列特征提取針對(duì)拼接蛋白序列作為研究對(duì)象的特殊性,使用432條信號(hào)肽序列分別與地衣芽孢桿菌*-淀粉酶 主鏈拼接得到實(shí)驗(yàn)樣本,然后按照以上的方法提取SFD特征,最后分析尋找信號(hào)肽中不同位置氨基酸 的偏向性趨勢(shì)。2.2人工序列設(shè)計(jì)的相似性分析使用核度量標(biāo)準(zhǔn)式(1)來(lái)計(jì)算實(shí)驗(yàn)樣本與高分泌蛋白的相似性距離,這里參考的高分泌蛋白是 文獻(xiàn)面中所有高分泌蛋白的類(lèi)中心。W( %,&) = | +( %) - +( &) | = J2( 1 4

16、S( %,&) )( 1)其中+:P ! OS,+(P) ! HS是一個(gè)連續(xù)平滑的非線(xiàn)性映射函數(shù),可以把原始向量從觀察空間影射 到高維特征空間,從而擴(kuò)大樣本之間的距離差異,便于比較相似性。其中P是原始空間OS中的變量, +(P)表示映射后的高維特征空間HS中的變量。這里+采用最常用的高斯核函數(shù)(2)S( %,&) =exp(1(2)%計(jì)算得到的相似性距離越小,則未知樣本實(shí)現(xiàn)高水平分泌的可能性越大。 人工樣本與分泌蛋白類(lèi)中心的相似性分析如圖1所示。0.270.2350.2650.260.2550.250.2450.2450100人工樣本01500.270.2350.2650.260.2550.2

17、50.2450.2450100人工樣本0150圖1人工樣本與分泌蛋白類(lèi)中心的相似性分析圖由圖1可知,發(fā)現(xiàn)不同位置的氨基酸有明顯的偏向選取趨勢(shì)。其中第12個(gè)位置的偏向取值為L(zhǎng) (亮氨酸),第22個(gè)位置的偏向取值為S(絲氨酸)和N(天冬酰胺),特別是第12個(gè)位置替換為L(zhǎng)時(shí),未 知樣本與分泌蛋白有明顯的相似性趨勢(shì)。而其它幾個(gè)位置的氨基酸選取偏向性不太明顯。通過(guò)替換第 12個(gè)位置和第22個(gè)位置的氨基酸種類(lèi),結(jié)合高斯核函數(shù)計(jì)算得到氨基酸組合的相似性距離。對(duì)比發(fā) 現(xiàn):當(dāng)?shù)?2個(gè)位置為L(zhǎng)(亮氨酸)和第22個(gè)位置為S(絲氨酸)時(shí),相似性距離數(shù)值最小,約為0.237,說(shuō) 明該優(yōu)化結(jié)果更能實(shí)現(xiàn)外源蛋白質(zhì)高分泌表達(dá)

18、。因此,在上述2個(gè)位置用偏向性選取的氨基酸代替原 有的氨基酸,得到偏向性序列SacB-2,然后進(jìn)一步分析SacB-2的序列特征。2.3偏向性序列的結(jié)構(gòu)分析小波變換是一種信號(hào)的時(shí)間一頻率分析方法,具有“數(shù)學(xué)顯微鏡”的功能,蛋白質(zhì)序列的結(jié)構(gòu)信息 能從小波分解系數(shù)中反映出來(lái),可用來(lái)分析和估計(jì)信號(hào)肽的H區(qū)。使用db2濾波器在尺度(1: 30)下對(duì) 分別對(duì)天然信號(hào)肽SacB和人工序列SacB-2的信號(hào)肽疏水序列進(jìn)行一維連續(xù)小波分解,得到信號(hào)肽的 結(jié)構(gòu)信息如圖2所示。a.b圖2小波變換得到的信號(hào)肽結(jié)構(gòu)圖a.b天然信號(hào)肽SacB b.人工序列SacB-2信號(hào)肽作為蛋白質(zhì)的起始序列,具有一定的序列特點(diǎn),因此調(diào)整和優(yōu)化以后的序列也應(yīng)該符合作為 信號(hào)肽的序列特點(diǎn)。從圖2中的結(jié)果可以看出,人工序列SacB-2與天然高分泌信號(hào)肽SacB的序列特 點(diǎn)基本一致,因此在很大程度上SacB-2能與枯草芽抱桿菌的轉(zhuǎn)移通道相容

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論