序列分類競賽題_第1頁
序列分類競賽題_第2頁
序列分類競賽題_第3頁
序列分類競賽題_第4頁
序列分類競賽題_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、DNA序列分類摘要本問題是一個(gè)“有人管理分類問題” 首先分別列舉出20個(gè)學(xué)習(xí)樣本序列中1字符串、2字符串、3字符串出現(xiàn)的頻率,構(gòu)成含41個(gè)變量的基本特征集,接著用主成分分析法從中提取出4個(gè)特征然后用Fisher線性判別法進(jìn)行分類,得出了所求20個(gè)人工制造序列及182個(gè)自然序列的分類結(jié)果如下:1) 20個(gè)人工序列:22, 23,25,27,29,34,35,36,37為A類,其余為B類2) 182個(gè)自然序列:1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76,81,86,90,92,102,110,116,119,126,131,144,150,157,15

2、9,160,161,162,163,164,165,166,169,170,182為B類,其余為A類最后通過檢驗(yàn)證明所用的分類數(shù)學(xué)模型效率較高一、問 題 重 述人類基因組計(jì)劃中DNA全序列草圖是由4個(gè)字符A,T,C,G按一定順序排成的長約30億的字符序列,其中沒有“斷句”也沒有標(biāo)點(diǎn)符號雖然人類對它知之甚少,但也發(fā)現(xiàn)了其中的一些規(guī)律性和結(jié)構(gòu)例如,在全序列中有一些是用于編碼蛋白質(zhì)的序列片段,即由這4個(gè)字符組成的64種不同的3字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的20種氨基酸又例如,在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些

3、結(jié)果此外,利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性,等等這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對理解DNA全序列是十分有意義的目前在這項(xiàng)研究中最普通的思想是省略序列的某些細(xì)節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象作為研究DNA序列的結(jié)構(gòu)的嘗試,提出以下對序列集合進(jìn)行分類的問題:1)請從20個(gè)已知類別的人工制造的序列(其中序列標(biāo)號110 為A類,1120為B類)中提取特征,構(gòu)造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好然后用你認(rèn)為滿意的方法,對另外20個(gè)未標(biāo)明類別的人工序列(標(biāo)號2140)進(jìn)行分類,把結(jié)果用序號(按從小到大的順序)標(biāo)

4、明他們的類別(無法分類的不寫入)2)同樣方法對182個(gè)自然DNA序列(他們都較長)進(jìn)行分類,像1)一樣地給出分類結(jié)果二、模型的合理假設(shè)1 各序列中DNA堿基三聯(lián)組(即3字符串)的起始位置和基因表達(dá)不影響分類的結(jié)果2 64種3字符串壓縮為20組后不影響分類的結(jié)果3 較長的182個(gè)自然序列與已知類別的20個(gè)樣本序列具有共同的特征三、模型建立與求解研究DNA序列具有什么結(jié)構(gòu),其A,T,C,G4個(gè)堿基排成的看似隨機(jī)的序列中隱藏著什么規(guī)律,是解讀人類基因組計(jì)劃中DNA全序列草圖的基礎(chǔ),也是生物信息學(xué)(Bioinformatcs)最重要的課題之一題目給出了20個(gè)已知為兩個(gè)類別的人工制造的DNA序列,要求我

5、們從中提取特征,構(gòu)造分類方法,從而對20個(gè)未標(biāo)明類別的人工DNA序列和182個(gè)自然DNA序列進(jìn)行分類這是模式識別中的“有人管理分類”問題,即事先規(guī)定了分類的標(biāo)準(zhǔn)和種類的數(shù)目,通過大批已知樣本的信息處理找出規(guī)律,再用計(jì)算機(jī)預(yù)報(bào)未知給出的已知類別的樣本稱為學(xué)習(xí)樣本對于此類問題,我們通過建立分類數(shù)學(xué)模型(這包括形成和提取特征以及制定分類決策)、考查分類模型的效率、預(yù)報(bào)未知這幾個(gè)步驟來進(jìn)行(一)特征的形成和提取為了有效地實(shí)現(xiàn)分類識別,首先要根據(jù)被識別的對象產(chǎn)生一組基本特征,并對基本特征進(jìn)行變換,得到最能反映分類本質(zhì)的特征這就是特征形成和提取的過程在列舉了盡可能完備的特征參數(shù)集之后,就要借助于數(shù)學(xué)的方法

6、,使特征參數(shù)的數(shù)目(在保證分類良好的前提下)減到最小這是因?yàn)椋?.多余的特征參數(shù)不但沒有多少好處,而且會(huì)帶來噪音,干擾分類和數(shù)學(xué)模型的建立2.為了保證樣本數(shù)和特征參數(shù)個(gè)數(shù)的比值足夠大,而又不必要用太多的樣本,最好使特征參數(shù)的個(gè)數(shù)降至最少模式識別計(jì)算一般要求樣本數(shù)至少為變量數(shù)的3倍,否則結(jié)果不夠可靠本問題的學(xué)習(xí)樣本數(shù)為20個(gè),故特征參數(shù)的個(gè)數(shù)以68個(gè)為宜我們通過研究4個(gè)字符A,T,C,G在DNA序列中的排列、組合特性,主要是研究字符和字符串的排列在序列中出現(xiàn)的頻率,從中提取DNA序列的結(jié)構(gòu)特征參數(shù)1特征的形成分別列舉一個(gè)字符,2個(gè)字符,3個(gè)字符的排列在序列中出現(xiàn)的頻率,構(gòu)成基本特征集(1)1個(gè)字

7、符的出現(xiàn)頻率表1列出了20個(gè)樣本中A,T,C,G這4個(gè)字符出現(xiàn)的頻率由于在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,因此我們將A和T是否特別豐富作為一個(gè)特征在表1中,列出了A和T出現(xiàn)的頻率之和(程序見附錄一) 表1 A C T G A+T 1. 29.73 17.12 13.51 39.64 43.242. 27.03 16.22 15.32 41.44 42.343. 27.03 21.62 6.31 45.05 33.334. 42.34 10.81 28.83 18.02 71.175. 23.42 23.42 10.81 42.34 34.236. 35.14 12.61 1

8、2.61 39.64 47.757. 35.14 9.91 18.92 36.04 54.05 8. 27.93 16.22 18.92 36.94 46.85 9. 20.72 20.72 15.32 43.24 36.0410.18.1827.27 13.64 40.91 31.8211. 35.45 4.55 50.00 10.00 85.45 12. 32.73 2.73 50.00 14.55 82.7313. 25.45 10.00 51.82 12.73 77.2714. 30.00 8.18 50.00 11.82 80.0015. 29.09 .00 64.55 6.36 9

9、3.6416. 36.36 8.18 46.36 9.09 82.7317. 35.45 24.55 26.36 13.64 61.8218. 29.09 11.82 50.00 9.09 79.09 19. 21.82 14.55 56.36 7.27 78.1820. 20.00 17.27 56.36 6.36 76.36(2)2字符串的排列出現(xiàn)的頻率A,T,C,G這4個(gè)字符組成了16種不同的2字符串表2列出了20個(gè)樣本中各2字符串出現(xiàn)的頻率(用“滾動(dòng)”算法,如ATTCG有AT,TT,TC,CG共4個(gè)2字符串)(程序與附錄一類似)表 2 AA AC AT AG TA TC TG TT C

10、A CT CC CG GA GT GC GG1. 9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.7 1 2.70 5.41 18.92 2. 9.91 7.21 3.60 5.41 2.70 1.80 5.41 5.41 4.50 1.80 .90 9.01 9.91 4.50 5.41 21.62 3. 5.41 11.71 3.60 5.41 2.70 1.80 .90 .90 5.41 .90 .90 14.41 13.51 .90 7.21 23.42 4. 18.92 5.41 11.71 5.41 10.

11、81 1.80 5.41 10.81 5.41 1.80 .90 2.70 6.31 4.50 2.70 4.50 5. 6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62 6. 15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11 19.82 7. 15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.51 .90 4.

12、50 16.22 8. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.2116.229. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.5118.02 10. 6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18 11. 15.45 2.73 14.55 2.73 16.36 .91 1.

13、82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73 12. 13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55 13. 6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.8 2 3.64 4.55 1.82 2.7314. 8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .91 .91 15.1

14、3.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .9116. 16.36 3.64 15.45 .9113.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82 17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.09 2.73 3.64 2.73 3.64 3.64 18.8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.

15、82 2.73 1.82 3.64 .91 2.73 19.2.73 2.73 13.64 1.82 14.55 9.09 .913 1.82 1.82 8.18 1.82 2.73 2.73 2.73 .91 .91 20. 6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91(3)3字符串的排列出現(xiàn)的頻率A,T,C,G這4個(gè)字符組成了64種不同的3字符串這64種3字符串構(gòu)成生物蛋白質(zhì)的20種氨基酸在參考文獻(xiàn)1的Figur2中,給出了這20種氨基酸的編碼(見圖1)因此,在計(jì)算3字符串的出現(xiàn)頻

16、率時(shí),我們根據(jù)圖1將代表同一種氨基酸的3字符串合成一類,只統(tǒng)計(jì)20類3字符串的出現(xiàn)頻率(不考慮字符串在序列片段中的起始位置,也采用“滾動(dòng)”算法如ACGTCC中就有ACG,CGT,GTC,TCC共4個(gè)3字符串)見表3(程序與附錄一類似)Symmetries of the diamond code sort the 64 codons into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid. 圖1 Brian Hayes 在論文“The Inve

17、ntion of the Genetic Code”中給出的圖形 (注:圖中DNA被轉(zhuǎn)錄為RNA,“U”代表“T”)表 3 b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20 1 1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.42 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08 2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.3

18、2 8.49 3.77 3.77 6.60 9.43 6.60 7.55 2.83 3 0.98 0.00 0.00 5.88 0.98 8.82 2.94 0.00 0.00 2.94 10.78 5.88 13.73 0.00 4.90 3.92 19.61 1.96 8.82 5.88 4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78, 7.83 5 2.86 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81

19、 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9.52 6 0.00 0.00 0.88 2.63 0.00 1.75 13.16 0.88 4.39 1.75 14.04 9.65 7.02 5.26 4.39 11.40 2.63 1.75 10.53 6.14 7 1.92 0.00 0.00 2.88 0.96 4.81 2.88 0.00 1.92 4.81 12.50 6.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7.69 8 2.56 3.42 0.00 0.85 0.85 0.85

20、12.82 0.85 1.71 0.85 20.51 2.56 3.42 9.40 5.98 11.11 0.85 4.27 11.97 3.42 9 0.00 0.00 0.00 2.97 2.97 9.90 2.97 0.00 0.99 3.96 6.93 1.98 13.86 1.98 2.97 3.96 23.76 2.97 8.91 6.9310 1.87 0.93 3.74 2.80 0.00 0.00 2.80 0.00 7.48 8.41 9.35 7.48 3.74 14.95 12.15 0.00 2.80 4.67 7.48 7.48 11 0.00 0.89 0.00

21、0.00 0.00 1.79 8.04 0.00 5.36 4.46 15.18 8.04 8.93 4.46 3.57 8.04 4.46 6.25 13.39 5.36 12 2.73 0.00 0.91 2.73 0.91 3.64 4.55 3.64 3.64 1.82 9.09 5.45 3.64 5.45 6.36 7.27 8.18 5.45 10.91 9.09 13 1.80 0.90 0.90 0.90 0.00 0.90 9.01 0.00 3.60 7.21 14.41 8.11 7.21 6.31 7.21 4.50 1.80 7.21 11.71 4.50 14 2

22、.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.94 10.78 0.98 1 0.78 9.80 15 2.91 1.94 2.91 1.94 0.00 5.83 1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.68 16 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.52 4.76 5.71 2.

23、86 7.62 7.62 17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7.69 18 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3.42 19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.

24、55 5.66 6.60 11.32 6.60 0.94 20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3.45 4.31 9.48 5.17 5.17 9.48 5.17 其中 b1 =aaa+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta b11=aat+taa+att+tta b12=acc+cca+a

25、gc+cga b13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc b19=gat+tag+gtt+ttg b20=gct+tcg+ggt+tgg綜合起來,形成了有41個(gè)變量的基本特征集2. 特征的提取上述基本特征集中有41個(gè)變量,即樣本處于一個(gè)高維空間中特征的提取就是通過變換的方法用低維空間來表示樣本,使得X的大部分特性能由Y來表達(dá),即將p維隨機(jī)向量X變換成q維隨機(jī)向量 Y(q<p)我們用主成分分析法進(jìn)

26、行特征的提取,其步驟是:(1)求X的均方差矩陣V的特征根,記為:12k0 k+1=P=0(2)求1,2K對應(yīng)的標(biāo)準(zhǔn)正交的特征向量r1,r2,rk得到第i個(gè)主成分為yi=riX, i=1,2,k.(3)求第i個(gè)主成分的貢獻(xiàn)率ui=i/ j, i=1,2,k, 及前m個(gè)主成分的累計(jì)貢獻(xiàn)率vm=ui .(4)求得q,使得VqV0(V0一般在0.85到1之間),則取 W=(r1,r2,rq)Y=XW第3步所求的貢獻(xiàn)率,代表主成分表達(dá)X的能力,貢獻(xiàn)率越大,對應(yīng)的主成分表達(dá)X的能力越強(qiáng)只要前q個(gè)主成分的累計(jì)貢獻(xiàn)率超過給定的百分比V就可以用低維特征Y=(y1,y2,yq)來反映高維特征(x1,x2,xp)的

27、變化特性現(xiàn)將反映20個(gè)已知類別樣本的41個(gè)特征的隨機(jī)向量X進(jìn)行特征提取計(jì)算得前4個(gè)主成分的累計(jì)貢獻(xiàn)率為96%,故提取特征為4個(gè)變量,取W=(r1,r2,r3,r4),則Y=XW,Y的4個(gè)分量就是從基本特征集提取所得的特征參數(shù)向量(程序及結(jié)果見附錄二)(二)分類決策的制定前面已選取了特征參數(shù),把特征參數(shù)張成的多維空間稱為特征空間分類決策就是在特征空間中用統(tǒng)計(jì)的方法把被識別對象歸為某一類別基本作法是在學(xué)習(xí)樣本集的基礎(chǔ)上確定某個(gè)判決規(guī)則,使按這種判決規(guī)則對被甄別對象進(jìn)行分類所造成的錯(cuò)誤識別率最小或引起的損失最少這里,我們的分類決策選取Fisher線性判別法即選取線性判別函數(shù)U(x),使得:U(x)=

28、E1U(x)-E2U(x)2/D1 U(x)+D2U(x)=max (1) 其中Ei與Di分別表示母體i的期望和方差運(yùn)算,i=1,2(1)式的含義是:構(gòu)造一個(gè)線性判別函數(shù)U(x)對樣本進(jìn)行分類,使得平均出錯(cuò)概率最小即應(yīng)在不同母體下,使U(x)的取值盡量分開具體地說,要使母體間的差異 (E1(U(x)-E2(U(x)2相對于母體內(nèi)的差異D1U(x)+D2U(x) 為最大取U(x)=(1-2)T(1+2)-1X 就可滿足(1)其中i為第i類母體的均值矩陣的估計(jì),i為第i類母體的方差矩陣的估計(jì)取分類門檻值為:U0=U(*1+(1-)*2)其中0<<1,本問題中兩類樣本的個(gè)數(shù)相等,可取 =

29、1/2若U(1)>U0,U(2)<U0 ,則當(dāng)U(X)>U0., 就認(rèn)為X取自母體1;當(dāng)U(X)<U0, 就認(rèn)為X取自母體2用上面得出的4個(gè)主成分構(gòu)成的特征組和此分類決策,對20個(gè)學(xué)習(xí)樣本進(jìn)行分類,能得出正確的結(jié)果但是,若取W=(r1,r2,r3),求Y=XW,以Y的3個(gè)分量作為特征參數(shù)向量,再用Fisher線性判別法對20個(gè)學(xué)習(xí)樣本進(jìn)行分類,則第四個(gè)樣本不能正確分類因此,得出分類的數(shù)學(xué)模型為:(1) 特征選?。喝=(r1,r2,r3,r4),求Y=XW,得出特征參數(shù)向量就是Y的4個(gè)列向量其中X是反映20個(gè)學(xué)習(xí)樣本的41個(gè)特征的隨機(jī)向量(2) 分類決策:Fisher線

30、性判別法(三)分類模型的有效性考察前面建立的分類數(shù)學(xué)模型對20個(gè)學(xué)習(xí)樣本進(jìn)行了正確分類為了進(jìn)一步考查分類模型的有效性和可靠性,我們采用的方法是:預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練,然后用分類決策模型對其作預(yù)報(bào),將預(yù)報(bào)成功率作為預(yù)報(bào)能力的指標(biāo)每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類決策模型對取出的一個(gè)樣本作預(yù)報(bào),同時(shí)對給出的后20種樣本作預(yù)報(bào)結(jié)果見表4表 4取出樣品序號 取出樣本類別預(yù)報(bào)后20組樣本中A類序號預(yù)報(bào) 1 A22,23,25,27,29,34,35,36,37 2 A22,23,25,27,29,34,35,36,37 3 A22,23,25,27,29,34,35,36,3

31、7 4 A23,25,27,29,34,35,36,37 5 A22,23,25,27,29,34,35,36,37 6 A22,23,25,27,29,34,35,36,37 7 A22,23,25,27,29,34,35,36,37 8 A22,23,25,27,29,34,35,36,37 9 A22,23,25,27,29,34,35,36,37 10 A22,23,25,27,29,34,35,36,37 11 B22,23,25,27,29,34,35,36,37 12 B22,23,25,27,29,34,35,36,37 13 B22,23,25,27,29,34,35,36,

32、37 14 B22,23,25,27,29,34,35,36,37 15 B22,23,25,27,29,34,35,36,37,39 16 B22,23,25,27,29,34,35,36,37 17 B22,23,25,27,29,34,35,36,37,30,39 18 B22,23,25,27,29,34,35,36,37 19 B22,23,25,27,29,34,35,36,37 20 B22,23,25,27,29,34,35, 37從表4可以看出:1 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類模型對該學(xué)習(xí)樣本的預(yù)報(bào)的成功率是100%2 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)

33、樣本作訓(xùn)練集,用分類模型對未知類別的第2140個(gè)樣本進(jìn)行預(yù)報(bào),其結(jié)果有以下特點(diǎn):(1) 除分別取出4、15、17,20的預(yù)報(bào)結(jié)果不同外,分別取出其余16中一個(gè),預(yù)報(bào)結(jié)果均為:22,23,25,27,29,34,35,36,37,占80%(2) 分別取出4、15、20的預(yù)報(bào)結(jié)果,與(1)的結(jié)果相比,只有一個(gè)樣本的差異,占15%(3) 取出17的預(yù)報(bào)結(jié)果,與(1)的結(jié)果相比,有兩個(gè)樣本的差異,占5%第一種結(jié)果和第二種結(jié)果非常接近,合計(jì)占總數(shù)的95%只有第三組的這一個(gè)結(jié)果有較大差異,占總數(shù)的5%由以上檢驗(yàn)得出結(jié)論:所建立的分類數(shù)學(xué)模型分類效果很好(四)未知樣本的預(yù)報(bào)現(xiàn)在用前面建立的數(shù)學(xué)模型對題目所給

34、的未知類型的20個(gè)人工序列和182個(gè)自然序列進(jìn)行預(yù)報(bào)(程序見附錄三)結(jié)果為:1) 20個(gè)人工序列的類別A類:22,23,25,27,29,34,35,36,37B類:21、24、26、28、30、31、32、33、38、39、402) 182個(gè)自然序列的類別A類:(共142個(gè))2,3,5,6,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,30,31,33,34,35,36,37,38,39,40,42,44,45,46,47,49,50,51,52,53,55,56,57,58,59,60,61,62,64,65,66,67,68

35、,69,71,73,74,77,78,79,80,82,83,84,85,87,88,89,91,93,94,95,96,97,98,99,100,101,103,104,105,106,107,108,109,111,112,113,114,115,117,118,120,121,122,123,124,125,127,128,129,130,132,133,134,135,136,137,138,139,140,141,142,143,145,146,147,148,149,151,152,153,154,155,156,158,167,168,171,172,173,174,175,17

36、6,177,178,179,180,181B類:(共40個(gè))1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76,81,86,90,92,102,110,116,119,126,131,144,150,157,159,160,161,162,163,164,165,166,169,170,182四、 模型的優(yōu)缺點(diǎn)分析優(yōu)點(diǎn):1 針對“有人管理分類”問題,成功地建立解決這類難題的數(shù)學(xué)模型,并可立即運(yùn)用到實(shí)踐中去2 僅用4個(gè)特征參數(shù)即圓滿解決了較為復(fù)雜的分類問題而且模型假設(shè)條件少,因而能準(zhǔn)確地反映實(shí)際情況,可靠性高3 采用模塊化分析,逐漸深入,提高了準(zhǔn)確性4 突出

37、特征,假設(shè)合理,避免了在一些細(xì)節(jié)問題上的糾纏缺點(diǎn):由于只考慮了DNA樣本序列中1字符串、2字符串、3字符串出現(xiàn)的頻率作為特征,DNA序列的分類不一定與實(shí)際情況完全相符(可以由科學(xué)家用物理的或化學(xué)的方法測定,作為補(bǔ)充)五、 模型的改進(jìn)方向及推廣模型的改進(jìn):因?yàn)槟P蜎]考慮DNA序列的實(shí)際特性,當(dāng)序列變得很多很長很復(fù)雜時(shí),分類的準(zhǔn)確性會(huì)降低而不可用,因此應(yīng)增加對DNA序列的生物特性的考慮模型的推廣:該模型對一般的“有人管理分類”問題的求解有重要意義對研究DNA序列的規(guī)律性和結(jié)構(gòu)提供了一種有效的分類模型對人類基因組的研究有現(xiàn)實(shí)意義,有利于加快科研步伐六、參考文獻(xiàn)Brain Hayes(美)The In

38、vention of the Genetic Code American ScientistComputing Science,Jan.-Feb., 1998蕭樹鐵 主編數(shù)學(xué)實(shí)驗(yàn)北京:高等教育出版社,1999 復(fù)旦大學(xué)概率論第二冊數(shù)理統(tǒng)計(jì)北京:高等教育出版社,1985William F. Lucas 主編生命科學(xué)模型。長沙:國防科技大學(xué)出版社,1996徐光煇 主編運(yùn)籌學(xué)基礎(chǔ)手冊北京:科學(xué)出版社,1999姜啟源 主編數(shù)學(xué)模型北京:高等教育出版社,1993七、附錄 附錄一 1個(gè)字符出現(xiàn)頻率的計(jì)算程序 CHARACTER*121 LINE(40)integer a,c,t,g,atREAD*,LIN

39、EDO 20 II=1,40iii=ii+20A=0C=0T=0G=0DO 10 I=1,121IF(LINE(ii)(I:I).EQ.a)THENA=A+1else if(line(ii)(I:I).eq.c)thenc=c+1else if(line(ii)(I:I).eq.t)thent=t+1else if(line(ii)(I:I).eq.g)theng=g+1END IF10 continueat=a+tactg=a+c+t+gaa=a/actg*100.cc=c/actg*100.tt=t/actg*100.gg=g/actg*100.aatt=at/actg*100.open(

40、5,file='t1.dat',status='old')write(5,1)aa,cc,tt,gg1format(1x,4f7.2)20CONTINUEEND附錄二 基本特征量的提取程序及結(jié)果d= 27.43 19.47 36.28 16.81 63.72; 28.85 24.04 22.12 25.00 50.96; 17.65 25.49 18.63 38.24 36.27; 20.87 19.13 40.87 19.13 61.74; 24.76 22.86 21.90 30.48 46.67; 21.93 21.05 38.60 18.42 60.53

41、; 23.08 20.19 23.08 33.65 46.15; 25.64 14.53 44.44 15.38 70.09; 14.85 21.78 18.81 44.55 33.66; 28.97 24.30 25.23 21.50 54.21; 24.11 17.86 35.71 22.32 59.82; 17.43 22.94 33.03 26.61 50.46; 27.03 18.92 33.33 20.72 60.36; 23.53 23.53 16.67 36.27 40.20; 24.27 21.36 20.39 33.98 44.66; 22.86 30.48 20.95 2

42、5.71 43.81; 21.36 25.24 20.39 33.01 41.75; 22.22 17.09 43.59 17.09 65.81; 27.36 28.30 23.58 20.75 50.94; 19.83 19.83 43.10 17.24 62.93; dd= 5.31 4.42 7.96 8.85 9.73 6.19 1.77 18.58 6.19 4.42 4.42 4.42 6.19 4.42 4.42 1.77; 7.69 9.62 3.85 7.69 9.62 3.85 .96 6.73 2.88 1.92 7.69 11.54 7.69 8.65 2.88 4.8

43、1; 2.94 3.92 5.88 4.90 3.92 2.94 1.96 9.80 .00 1.96 12.75 9.80 10.78 .98 4.90 21.57; 1.74 4.35 3.48 11.30 13.04 1.74 2.61 22.61 2.61 9.57 4.35 2.61 3.48 4.35 8.70 2.61; 6.67 3.81 3.81 9.52 5.71 1.90 4.76 9.52 7.62 4.76 7.62 2.86 4.76 3.81 9.52 12.38; 3.51 3.51 5.26 9.65 7.89 4.39 1.75 24.56 7.89 6.1

44、4 1.75 4.39 2.63 2.63 11.40 1.75; 5.77 4.81 4.81 7.69 6.73 2.88 2.88 10.58 2.88 2.88 7.69 6.73 7.69 4.81 4.81 15.38; 3.42 5.13 9.40 6.84 11.97 5.13 3.42 23.93 2.56 6.84 2.56 2.56 7.69 3.42 1.71 2.56; 1.98 1.98 3.96 6.93 3.96 2.97 2.97 8.91 1.98 .99 8.91 8.91 6.93 4.95 7.92 24.75; 9.35 5.61 2.80 10.2

45、8 7.48 5.61 5.61 6.54 8.41 7.48 2.80 5.61 3.74 8.41 9.35 .00; 2.68 5.36 4.46 11.61 15.18 1.79 .89 16.96 3.57 6.25 3.57 4.46 2.68 7.14 7.14 5.36; 5.50 2.75 2.75 6.42 6.42 7.34 4.59 13.76 4.59 5.50 6.42 6.42 .92 10.09 6.42 8.26; 5.41 7.21 7.21 7.21 10.81 1.80 5.41 15.32 3.60 4.50 2.70 7.21 7.21 6.31 6

46、.31 .90; 7.84 4.90 .98 8.82 4.90 .98 2.94 7.84 2.94 3.92 9.80 6.86 7.84 3.92 6.86 17.65; 5.83 4.85 3.88 9.71 7.77 3.88 1.94 6.80 3.88 2.91 3.88 9.71 6.80 6.80 8.74 11.65; 4.76 3.81 1.90 12.38 8.57 5.71 .00 6.67 5.71 3.81 10.48 10.48 3.81 8.57 9.52 2.86; 3.88 2.91 2.91 10.68 5.83 .97 6.80 5.83 5.83 5.83 9.71 3.88 4.85 5.83 11.65 10.68; 3.42 9.40 5.98 3.42 10.26 1.71 4.27 27.35 5.13 3.42 4.27 3.42 2.56 6.84 1.71 5.98; 8.49 5.66 4.72 8.49 4.72 8.49 2.83 6.60 11.32 1.89 9.43 5.66 2.83 9.43 4.72 3.77; 3.45 7.76 4.31 4.31 10.34 .86 3.45 27.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論