版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、DNA序列分類(lèi)摘要本問(wèn)題是一個(gè)“有人管理分類(lèi)問(wèn)題” 首先分別列舉出20個(gè)學(xué)習(xí)樣本序列中1字符串、2字符串、3字符串出現(xiàn)的頻率,構(gòu)成含41個(gè)變量的基本特征集,接著用主成分分析法從中提取出4個(gè)特征然后用Fisher線性判別法進(jìn)行分類(lèi),得出了所求20個(gè)人工制造序列及182個(gè)自然序列的分類(lèi)結(jié)果如下:1) 20個(gè)人工序列:22, 23,25,27,29,34,35,36,37為A類(lèi),其余為B類(lèi)2) 182個(gè)自然序列:1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76,81,86,90,92,102,110,116,119,126,131,144,150,157,15
2、9,160,161,162,163,164,165,166,169,170,182為B類(lèi),其余為A類(lèi)最后通過(guò)檢驗(yàn)證明所用的分類(lèi)數(shù)學(xué)模型效率較高一、問(wèn) 題 重 述人類(lèi)基因組計(jì)劃中DNA全序列草圖是由4個(gè)字符A,T,C,G按一定順序排成的長(zhǎng)約30億的字符序列,其中沒(méi)有“斷句”也沒(méi)有標(biāo)點(diǎn)符號(hào)雖然人類(lèi)對(duì)它知之甚少,但也發(fā)現(xiàn)了其中的一些規(guī)律性和結(jié)構(gòu)例如,在全序列中有一些是用于編碼蛋白質(zhì)的序列片段,即由這4個(gè)字符組成的64種不同的3字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的20種氨基酸又例如,在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些
3、結(jié)果此外,利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性,等等這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對(duì)理解DNA全序列是十分有意義的目前在這項(xiàng)研究中最普通的思想是省略序列的某些細(xì)節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對(duì)象作為研究DNA序列的結(jié)構(gòu)的嘗試,提出以下對(duì)序列集合進(jìn)行分類(lèi)的問(wèn)題:1)請(qǐng)從20個(gè)已知類(lèi)別的人工制造的序列(其中序列標(biāo)號(hào)110 為A類(lèi),1120為B類(lèi))中提取特征,構(gòu)造分類(lèi)方法,并用這些已知類(lèi)別的序列,衡量你的方法是否足夠好然后用你認(rèn)為滿意的方法,對(duì)另外20個(gè)未標(biāo)明類(lèi)別的人工序列(標(biāo)號(hào)2140)進(jìn)行分類(lèi),把結(jié)果用序號(hào)(按從小到大的順序)標(biāo)
4、明他們的類(lèi)別(無(wú)法分類(lèi)的不寫(xiě)入)2)同樣方法對(duì)182個(gè)自然DNA序列(他們都較長(zhǎng))進(jìn)行分類(lèi),像1)一樣地給出分類(lèi)結(jié)果二、模型的合理假設(shè)1 各序列中DNA堿基三聯(lián)組(即3字符串)的起始位置和基因表達(dá)不影響分類(lèi)的結(jié)果2 64種3字符串壓縮為20組后不影響分類(lèi)的結(jié)果3 較長(zhǎng)的182個(gè)自然序列與已知類(lèi)別的20個(gè)樣本序列具有共同的特征三、模型建立與求解研究DNA序列具有什么結(jié)構(gòu),其A,T,C,G4個(gè)堿基排成的看似隨機(jī)的序列中隱藏著什么規(guī)律,是解讀人類(lèi)基因組計(jì)劃中DNA全序列草圖的基礎(chǔ),也是生物信息學(xué)(Bioinformatcs)最重要的課題之一題目給出了20個(gè)已知為兩個(gè)類(lèi)別的人工制造的DNA序列,要求我
5、們從中提取特征,構(gòu)造分類(lèi)方法,從而對(duì)20個(gè)未標(biāo)明類(lèi)別的人工DNA序列和182個(gè)自然DNA序列進(jìn)行分類(lèi)這是模式識(shí)別中的“有人管理分類(lèi)”問(wèn)題,即事先規(guī)定了分類(lèi)的標(biāo)準(zhǔn)和種類(lèi)的數(shù)目,通過(guò)大批已知樣本的信息處理找出規(guī)律,再用計(jì)算機(jī)預(yù)報(bào)未知給出的已知類(lèi)別的樣本稱(chēng)為學(xué)習(xí)樣本對(duì)于此類(lèi)問(wèn)題,我們通過(guò)建立分類(lèi)數(shù)學(xué)模型(這包括形成和提取特征以及制定分類(lèi)決策)、考查分類(lèi)模型的效率、預(yù)報(bào)未知這幾個(gè)步驟來(lái)進(jìn)行(一)特征的形成和提取為了有效地實(shí)現(xiàn)分類(lèi)識(shí)別,首先要根據(jù)被識(shí)別的對(duì)象產(chǎn)生一組基本特征,并對(duì)基本特征進(jìn)行變換,得到最能反映分類(lèi)本質(zhì)的特征這就是特征形成和提取的過(guò)程在列舉了盡可能完備的特征參數(shù)集之后,就要借助于數(shù)學(xué)的方法
6、,使特征參數(shù)的數(shù)目(在保證分類(lèi)良好的前提下)減到最小這是因?yàn)椋?.多余的特征參數(shù)不但沒(méi)有多少好處,而且會(huì)帶來(lái)噪音,干擾分類(lèi)和數(shù)學(xué)模型的建立2.為了保證樣本數(shù)和特征參數(shù)個(gè)數(shù)的比值足夠大,而又不必要用太多的樣本,最好使特征參數(shù)的個(gè)數(shù)降至最少模式識(shí)別計(jì)算一般要求樣本數(shù)至少為變量數(shù)的3倍,否則結(jié)果不夠可靠本問(wèn)題的學(xué)習(xí)樣本數(shù)為20個(gè),故特征參數(shù)的個(gè)數(shù)以68個(gè)為宜我們通過(guò)研究4個(gè)字符A,T,C,G在DNA序列中的排列、組合特性,主要是研究字符和字符串的排列在序列中出現(xiàn)的頻率,從中提取DNA序列的結(jié)構(gòu)特征參數(shù)1特征的形成分別列舉一個(gè)字符,2個(gè)字符,3個(gè)字符的排列在序列中出現(xiàn)的頻率,構(gòu)成基本特征集(1)1個(gè)字
7、符的出現(xiàn)頻率表1列出了20個(gè)樣本中A,T,C,G這4個(gè)字符出現(xiàn)的頻率由于在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,因此我們將A和T是否特別豐富作為一個(gè)特征在表1中,列出了A和T出現(xiàn)的頻率之和(程序見(jiàn)附錄一) 表1 A C T G A+T 1. 29.73 17.12 13.51 39.64 43.242. 27.03 16.22 15.32 41.44 42.343. 27.03 21.62 6.31 45.05 33.334. 42.34 10.81 28.83 18.02 71.175. 23.42 23.42 10.81 42.34 34.236. 35.14 12.61 1
8、2.61 39.64 47.757. 35.14 9.91 18.92 36.04 54.05 8. 27.93 16.22 18.92 36.94 46.85 9. 20.72 20.72 15.32 43.24 36.0410.18.1827.27 13.64 40.91 31.8211. 35.45 4.55 50.00 10.00 85.45 12. 32.73 2.73 50.00 14.55 82.7313. 25.45 10.00 51.82 12.73 77.2714. 30.00 8.18 50.00 11.82 80.0015. 29.09 .00 64.55 6.36 9
9、3.6416. 36.36 8.18 46.36 9.09 82.7317. 35.45 24.55 26.36 13.64 61.8218. 29.09 11.82 50.00 9.09 79.09 19. 21.82 14.55 56.36 7.27 78.1820. 20.00 17.27 56.36 6.36 76.36(2)2字符串的排列出現(xiàn)的頻率A,T,C,G這4個(gè)字符組成了16種不同的2字符串表2列出了20個(gè)樣本中各2字符串出現(xiàn)的頻率(用“滾動(dòng)”算法,如ATTCG有AT,TT,TC,CG共4個(gè)2字符串)(程序與附錄一類(lèi)似)表 2 AA AC AT AG TA TC TG TT C
10、A CT CC CG GA GT GC GG1. 9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.7 1 2.70 5.41 18.92 2. 9.91 7.21 3.60 5.41 2.70 1.80 5.41 5.41 4.50 1.80 .90 9.01 9.91 4.50 5.41 21.62 3. 5.41 11.71 3.60 5.41 2.70 1.80 .90 .90 5.41 .90 .90 14.41 13.51 .90 7.21 23.42 4. 18.92 5.41 11.71 5.41 10.
11、81 1.80 5.41 10.81 5.41 1.80 .90 2.70 6.31 4.50 2.70 4.50 5. 6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62 6. 15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11 19.82 7. 15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.51 .90 4.
12、50 16.22 8. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.2116.229. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.5118.02 10. 6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18 11. 15.45 2.73 14.55 2.73 16.36 .91 1.
13、82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73 12. 13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55 13. 6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.8 2 3.64 4.55 1.82 2.7314. 8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .91 .91 15.1
14、3.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .9116. 16.36 3.64 15.45 .9113.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82 17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.09 2.73 3.64 2.73 3.64 3.64 18.8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.
15、82 2.73 1.82 3.64 .91 2.73 19.2.73 2.73 13.64 1.82 14.55 9.09 .913 1.82 1.82 8.18 1.82 2.73 2.73 2.73 .91 .91 20. 6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91(3)3字符串的排列出現(xiàn)的頻率A,T,C,G這4個(gè)字符組成了64種不同的3字符串這64種3字符串構(gòu)成生物蛋白質(zhì)的20種氨基酸在參考文獻(xiàn)1的Figur2中,給出了這20種氨基酸的編碼(見(jiàn)圖1)因此,在計(jì)算3字符串的出現(xiàn)頻
16、率時(shí),我們根據(jù)圖1將代表同一種氨基酸的3字符串合成一類(lèi),只統(tǒng)計(jì)20類(lèi)3字符串的出現(xiàn)頻率(不考慮字符串在序列片段中的起始位置,也采用“滾動(dòng)”算法如ACGTCC中就有ACG,CGT,GTC,TCC共4個(gè)3字符串)見(jiàn)表3(程序與附錄一類(lèi)似)Symmetries of the diamond code sort the 64 codons into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid. 圖1 Brian Hayes 在論文“The Inve
17、ntion of the Genetic Code”中給出的圖形 (注:圖中DNA被轉(zhuǎn)錄為RNA,“U”代表“T”)表 3 b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20 1 1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.42 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08 2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.3
18、2 8.49 3.77 3.77 6.60 9.43 6.60 7.55 2.83 3 0.98 0.00 0.00 5.88 0.98 8.82 2.94 0.00 0.00 2.94 10.78 5.88 13.73 0.00 4.90 3.92 19.61 1.96 8.82 5.88 4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78, 7.83 5 2.86 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81
19、 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9.52 6 0.00 0.00 0.88 2.63 0.00 1.75 13.16 0.88 4.39 1.75 14.04 9.65 7.02 5.26 4.39 11.40 2.63 1.75 10.53 6.14 7 1.92 0.00 0.00 2.88 0.96 4.81 2.88 0.00 1.92 4.81 12.50 6.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7.69 8 2.56 3.42 0.00 0.85 0.85 0.85
20、12.82 0.85 1.71 0.85 20.51 2.56 3.42 9.40 5.98 11.11 0.85 4.27 11.97 3.42 9 0.00 0.00 0.00 2.97 2.97 9.90 2.97 0.00 0.99 3.96 6.93 1.98 13.86 1.98 2.97 3.96 23.76 2.97 8.91 6.9310 1.87 0.93 3.74 2.80 0.00 0.00 2.80 0.00 7.48 8.41 9.35 7.48 3.74 14.95 12.15 0.00 2.80 4.67 7.48 7.48 11 0.00 0.89 0.00
21、0.00 0.00 1.79 8.04 0.00 5.36 4.46 15.18 8.04 8.93 4.46 3.57 8.04 4.46 6.25 13.39 5.36 12 2.73 0.00 0.91 2.73 0.91 3.64 4.55 3.64 3.64 1.82 9.09 5.45 3.64 5.45 6.36 7.27 8.18 5.45 10.91 9.09 13 1.80 0.90 0.90 0.90 0.00 0.90 9.01 0.00 3.60 7.21 14.41 8.11 7.21 6.31 7.21 4.50 1.80 7.21 11.71 4.50 14 2
22、.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.94 10.78 0.98 1 0.78 9.80 15 2.91 1.94 2.91 1.94 0.00 5.83 1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.68 16 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.52 4.76 5.71 2.
23、86 7.62 7.62 17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7.69 18 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3.42 19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.
24、55 5.66 6.60 11.32 6.60 0.94 20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3.45 4.31 9.48 5.17 5.17 9.48 5.17 其中 b1 =aaa+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta b11=aat+taa+att+tta b12=acc+cca+a
25、gc+cga b13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc b19=gat+tag+gtt+ttg b20=gct+tcg+ggt+tgg綜合起來(lái),形成了有41個(gè)變量的基本特征集2. 特征的提取上述基本特征集中有41個(gè)變量,即樣本處于一個(gè)高維空間中特征的提取就是通過(guò)變換的方法用低維空間來(lái)表示樣本,使得X的大部分特性能由Y來(lái)表達(dá),即將p維隨機(jī)向量X變換成q維隨機(jī)向量 Y(q<p)我們用主成分分析法進(jìn)
26、行特征的提取,其步驟是:(1)求X的均方差矩陣V的特征根,記為:12k0 k+1=P=0(2)求1,2K對(duì)應(yīng)的標(biāo)準(zhǔn)正交的特征向量r1,r2,rk得到第i個(gè)主成分為yi=riX, i=1,2,k.(3)求第i個(gè)主成分的貢獻(xiàn)率ui=i/ j, i=1,2,k, 及前m個(gè)主成分的累計(jì)貢獻(xiàn)率vm=ui .(4)求得q,使得VqV0(V0一般在0.85到1之間),則取 W=(r1,r2,rq)Y=XW第3步所求的貢獻(xiàn)率,代表主成分表達(dá)X的能力,貢獻(xiàn)率越大,對(duì)應(yīng)的主成分表達(dá)X的能力越強(qiáng)只要前q個(gè)主成分的累計(jì)貢獻(xiàn)率超過(guò)給定的百分比V就可以用低維特征Y=(y1,y2,yq)來(lái)反映高維特征(x1,x2,xp)的
27、變化特性現(xiàn)將反映20個(gè)已知類(lèi)別樣本的41個(gè)特征的隨機(jī)向量X進(jìn)行特征提取計(jì)算得前4個(gè)主成分的累計(jì)貢獻(xiàn)率為96%,故提取特征為4個(gè)變量,取W=(r1,r2,r3,r4),則Y=XW,Y的4個(gè)分量就是從基本特征集提取所得的特征參數(shù)向量(程序及結(jié)果見(jiàn)附錄二)(二)分類(lèi)決策的制定前面已選取了特征參數(shù),把特征參數(shù)張成的多維空間稱(chēng)為特征空間分類(lèi)決策就是在特征空間中用統(tǒng)計(jì)的方法把被識(shí)別對(duì)象歸為某一類(lèi)別基本作法是在學(xué)習(xí)樣本集的基礎(chǔ)上確定某個(gè)判決規(guī)則,使按這種判決規(guī)則對(duì)被甄別對(duì)象進(jìn)行分類(lèi)所造成的錯(cuò)誤識(shí)別率最小或引起的損失最少這里,我們的分類(lèi)決策選取Fisher線性判別法即選取線性判別函數(shù)U(x),使得:U(x)=
28、E1U(x)-E2U(x)2/D1 U(x)+D2U(x)=max (1) 其中Ei與Di分別表示母體i的期望和方差運(yùn)算,i=1,2(1)式的含義是:構(gòu)造一個(gè)線性判別函數(shù)U(x)對(duì)樣本進(jìn)行分類(lèi),使得平均出錯(cuò)概率最小即應(yīng)在不同母體下,使U(x)的取值盡量分開(kāi)具體地說(shuō),要使母體間的差異 (E1(U(x)-E2(U(x)2相對(duì)于母體內(nèi)的差異D1U(x)+D2U(x) 為最大取U(x)=(1-2)T(1+2)-1X 就可滿足(1)其中i為第i類(lèi)母體的均值矩陣的估計(jì),i為第i類(lèi)母體的方差矩陣的估計(jì)取分類(lèi)門(mén)檻值為:U0=U(*1+(1-)*2)其中0<<1,本問(wèn)題中兩類(lèi)樣本的個(gè)數(shù)相等,可取 =
29、1/2若U(1)>U0,U(2)<U0 ,則當(dāng)U(X)>U0., 就認(rèn)為X取自母體1;當(dāng)U(X)<U0, 就認(rèn)為X取自母體2用上面得出的4個(gè)主成分構(gòu)成的特征組和此分類(lèi)決策,對(duì)20個(gè)學(xué)習(xí)樣本進(jìn)行分類(lèi),能得出正確的結(jié)果但是,若取W=(r1,r2,r3),求Y=XW,以Y的3個(gè)分量作為特征參數(shù)向量,再用Fisher線性判別法對(duì)20個(gè)學(xué)習(xí)樣本進(jìn)行分類(lèi),則第四個(gè)樣本不能正確分類(lèi)因此,得出分類(lèi)的數(shù)學(xué)模型為:(1) 特征選?。喝=(r1,r2,r3,r4),求Y=XW,得出特征參數(shù)向量就是Y的4個(gè)列向量其中X是反映20個(gè)學(xué)習(xí)樣本的41個(gè)特征的隨機(jī)向量(2) 分類(lèi)決策:Fisher線
30、性判別法(三)分類(lèi)模型的有效性考察前面建立的分類(lèi)數(shù)學(xué)模型對(duì)20個(gè)學(xué)習(xí)樣本進(jìn)行了正確分類(lèi)為了進(jìn)一步考查分類(lèi)模型的有效性和可靠性,我們采用的方法是:預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練,然后用分類(lèi)決策模型對(duì)其作預(yù)報(bào),將預(yù)報(bào)成功率作為預(yù)報(bào)能力的指標(biāo)每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類(lèi)決策模型對(duì)取出的一個(gè)樣本作預(yù)報(bào),同時(shí)對(duì)給出的后20種樣本作預(yù)報(bào)結(jié)果見(jiàn)表4表 4取出樣品序號(hào) 取出樣本類(lèi)別預(yù)報(bào)后20組樣本中A類(lèi)序號(hào)預(yù)報(bào) 1 A22,23,25,27,29,34,35,36,37 2 A22,23,25,27,29,34,35,36,37 3 A22,23,25,27,29,34,35,36,3
31、7 4 A23,25,27,29,34,35,36,37 5 A22,23,25,27,29,34,35,36,37 6 A22,23,25,27,29,34,35,36,37 7 A22,23,25,27,29,34,35,36,37 8 A22,23,25,27,29,34,35,36,37 9 A22,23,25,27,29,34,35,36,37 10 A22,23,25,27,29,34,35,36,37 11 B22,23,25,27,29,34,35,36,37 12 B22,23,25,27,29,34,35,36,37 13 B22,23,25,27,29,34,35,36,
32、37 14 B22,23,25,27,29,34,35,36,37 15 B22,23,25,27,29,34,35,36,37,39 16 B22,23,25,27,29,34,35,36,37 17 B22,23,25,27,29,34,35,36,37,30,39 18 B22,23,25,27,29,34,35,36,37 19 B22,23,25,27,29,34,35,36,37 20 B22,23,25,27,29,34,35, 37從表4可以看出:1 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類(lèi)模型對(duì)該學(xué)習(xí)樣本的預(yù)報(bào)的成功率是100%2 每次取出一個(gè)學(xué)習(xí)樣本,以其余學(xué)習(xí)
33、樣本作訓(xùn)練集,用分類(lèi)模型對(duì)未知類(lèi)別的第2140個(gè)樣本進(jìn)行預(yù)報(bào),其結(jié)果有以下特點(diǎn):(1) 除分別取出4、15、17,20的預(yù)報(bào)結(jié)果不同外,分別取出其余16中一個(gè),預(yù)報(bào)結(jié)果均為:22,23,25,27,29,34,35,36,37,占80%(2) 分別取出4、15、20的預(yù)報(bào)結(jié)果,與(1)的結(jié)果相比,只有一個(gè)樣本的差異,占15%(3) 取出17的預(yù)報(bào)結(jié)果,與(1)的結(jié)果相比,有兩個(gè)樣本的差異,占5%第一種結(jié)果和第二種結(jié)果非常接近,合計(jì)占總數(shù)的95%只有第三組的這一個(gè)結(jié)果有較大差異,占總數(shù)的5%由以上檢驗(yàn)得出結(jié)論:所建立的分類(lèi)數(shù)學(xué)模型分類(lèi)效果很好(四)未知樣本的預(yù)報(bào)現(xiàn)在用前面建立的數(shù)學(xué)模型對(duì)題目所給
34、的未知類(lèi)型的20個(gè)人工序列和182個(gè)自然序列進(jìn)行預(yù)報(bào)(程序見(jiàn)附錄三)結(jié)果為:1) 20個(gè)人工序列的類(lèi)別A類(lèi):22,23,25,27,29,34,35,36,37B類(lèi):21、24、26、28、30、31、32、33、38、39、402) 182個(gè)自然序列的類(lèi)別A類(lèi):(共142個(gè))2,3,5,6,7,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,30,31,33,34,35,36,37,38,39,40,42,44,45,46,47,49,50,51,52,53,55,56,57,58,59,60,61,62,64,65,66,67,68
35、,69,71,73,74,77,78,79,80,82,83,84,85,87,88,89,91,93,94,95,96,97,98,99,100,101,103,104,105,106,107,108,109,111,112,113,114,115,117,118,120,121,122,123,124,125,127,128,129,130,132,133,134,135,136,137,138,139,140,141,142,143,145,146,147,148,149,151,152,153,154,155,156,158,167,168,171,172,173,174,175,17
36、6,177,178,179,180,181B類(lèi):(共40個(gè))1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76,81,86,90,92,102,110,116,119,126,131,144,150,157,159,160,161,162,163,164,165,166,169,170,182四、 模型的優(yōu)缺點(diǎn)分析優(yōu)點(diǎn):1 針對(duì)“有人管理分類(lèi)”問(wèn)題,成功地建立解決這類(lèi)難題的數(shù)學(xué)模型,并可立即運(yùn)用到實(shí)踐中去2 僅用4個(gè)特征參數(shù)即圓滿解決了較為復(fù)雜的分類(lèi)問(wèn)題而且模型假設(shè)條件少,因而能準(zhǔn)確地反映實(shí)際情況,可靠性高3 采用模塊化分析,逐漸深入,提高了準(zhǔn)確性4 突出
37、特征,假設(shè)合理,避免了在一些細(xì)節(jié)問(wèn)題上的糾纏缺點(diǎn):由于只考慮了DNA樣本序列中1字符串、2字符串、3字符串出現(xiàn)的頻率作為特征,DNA序列的分類(lèi)不一定與實(shí)際情況完全相符(可以由科學(xué)家用物理的或化學(xué)的方法測(cè)定,作為補(bǔ)充)五、 模型的改進(jìn)方向及推廣模型的改進(jìn):因?yàn)槟P蜎](méi)考慮DNA序列的實(shí)際特性,當(dāng)序列變得很多很長(zhǎng)很復(fù)雜時(shí),分類(lèi)的準(zhǔn)確性會(huì)降低而不可用,因此應(yīng)增加對(duì)DNA序列的生物特性的考慮模型的推廣:該模型對(duì)一般的“有人管理分類(lèi)”問(wèn)題的求解有重要意義對(duì)研究DNA序列的規(guī)律性和結(jié)構(gòu)提供了一種有效的分類(lèi)模型對(duì)人類(lèi)基因組的研究有現(xiàn)實(shí)意義,有利于加快科研步伐六、參考文獻(xiàn)Brain Hayes(美)The In
38、vention of the Genetic Code American ScientistComputing Science,Jan.-Feb., 1998蕭樹(shù)鐵 主編數(shù)學(xué)實(shí)驗(yàn)北京:高等教育出版社,1999 復(fù)旦大學(xué)概率論第二冊(cè)數(shù)理統(tǒng)計(jì)北京:高等教育出版社,1985William F. Lucas 主編生命科學(xué)模型。長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1996徐光煇 主編運(yùn)籌學(xué)基礎(chǔ)手冊(cè)北京:科學(xué)出版社,1999姜啟源 主編數(shù)學(xué)模型北京:高等教育出版社,1993七、附錄 附錄一 1個(gè)字符出現(xiàn)頻率的計(jì)算程序 CHARACTER*121 LINE(40)integer a,c,t,g,atREAD*,LIN
39、EDO 20 II=1,40iii=ii+20A=0C=0T=0G=0DO 10 I=1,121IF(LINE(ii)(I:I).EQ.a)THENA=A+1else if(line(ii)(I:I).eq.c)thenc=c+1else if(line(ii)(I:I).eq.t)thent=t+1else if(line(ii)(I:I).eq.g)theng=g+1END IF10 continueat=a+tactg=a+c+t+gaa=a/actg*100.cc=c/actg*100.tt=t/actg*100.gg=g/actg*100.aatt=at/actg*100.open(
40、5,file='t1.dat',status='old')write(5,1)aa,cc,tt,gg1format(1x,4f7.2)20CONTINUEEND附錄二 基本特征量的提取程序及結(jié)果d= 27.43 19.47 36.28 16.81 63.72; 28.85 24.04 22.12 25.00 50.96; 17.65 25.49 18.63 38.24 36.27; 20.87 19.13 40.87 19.13 61.74; 24.76 22.86 21.90 30.48 46.67; 21.93 21.05 38.60 18.42 60.53
41、; 23.08 20.19 23.08 33.65 46.15; 25.64 14.53 44.44 15.38 70.09; 14.85 21.78 18.81 44.55 33.66; 28.97 24.30 25.23 21.50 54.21; 24.11 17.86 35.71 22.32 59.82; 17.43 22.94 33.03 26.61 50.46; 27.03 18.92 33.33 20.72 60.36; 23.53 23.53 16.67 36.27 40.20; 24.27 21.36 20.39 33.98 44.66; 22.86 30.48 20.95 2
42、5.71 43.81; 21.36 25.24 20.39 33.01 41.75; 22.22 17.09 43.59 17.09 65.81; 27.36 28.30 23.58 20.75 50.94; 19.83 19.83 43.10 17.24 62.93; dd= 5.31 4.42 7.96 8.85 9.73 6.19 1.77 18.58 6.19 4.42 4.42 4.42 6.19 4.42 4.42 1.77; 7.69 9.62 3.85 7.69 9.62 3.85 .96 6.73 2.88 1.92 7.69 11.54 7.69 8.65 2.88 4.8
43、1; 2.94 3.92 5.88 4.90 3.92 2.94 1.96 9.80 .00 1.96 12.75 9.80 10.78 .98 4.90 21.57; 1.74 4.35 3.48 11.30 13.04 1.74 2.61 22.61 2.61 9.57 4.35 2.61 3.48 4.35 8.70 2.61; 6.67 3.81 3.81 9.52 5.71 1.90 4.76 9.52 7.62 4.76 7.62 2.86 4.76 3.81 9.52 12.38; 3.51 3.51 5.26 9.65 7.89 4.39 1.75 24.56 7.89 6.1
44、4 1.75 4.39 2.63 2.63 11.40 1.75; 5.77 4.81 4.81 7.69 6.73 2.88 2.88 10.58 2.88 2.88 7.69 6.73 7.69 4.81 4.81 15.38; 3.42 5.13 9.40 6.84 11.97 5.13 3.42 23.93 2.56 6.84 2.56 2.56 7.69 3.42 1.71 2.56; 1.98 1.98 3.96 6.93 3.96 2.97 2.97 8.91 1.98 .99 8.91 8.91 6.93 4.95 7.92 24.75; 9.35 5.61 2.80 10.2
45、8 7.48 5.61 5.61 6.54 8.41 7.48 2.80 5.61 3.74 8.41 9.35 .00; 2.68 5.36 4.46 11.61 15.18 1.79 .89 16.96 3.57 6.25 3.57 4.46 2.68 7.14 7.14 5.36; 5.50 2.75 2.75 6.42 6.42 7.34 4.59 13.76 4.59 5.50 6.42 6.42 .92 10.09 6.42 8.26; 5.41 7.21 7.21 7.21 10.81 1.80 5.41 15.32 3.60 4.50 2.70 7.21 7.21 6.31 6
46、.31 .90; 7.84 4.90 .98 8.82 4.90 .98 2.94 7.84 2.94 3.92 9.80 6.86 7.84 3.92 6.86 17.65; 5.83 4.85 3.88 9.71 7.77 3.88 1.94 6.80 3.88 2.91 3.88 9.71 6.80 6.80 8.74 11.65; 4.76 3.81 1.90 12.38 8.57 5.71 .00 6.67 5.71 3.81 10.48 10.48 3.81 8.57 9.52 2.86; 3.88 2.91 2.91 10.68 5.83 .97 6.80 5.83 5.83 5.83 9.71 3.88 4.85 5.83 11.65 10.68; 3.42 9.40 5.98 3.42 10.26 1.71 4.27 27.35 5.13 3.42 4.27 3.42 2.56 6.84 1.71 5.98; 8.49 5.66 4.72 8.49 4.72 8.49 2.83 6.60 11.32 1.89 9.43 5.66 2.83 9.43 4.72 3.77; 3.45 7.76 4.31 4.31 10.34 .86 3.45 27.5
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版煤炭進(jìn)出口居間服務(wù)不可撤銷(xiāo)合同4篇
- 2024預(yù)付款擔(dān)保形式創(chuàng)新與合同起草策略合同9篇
- 二零二五年新材料存貨質(zhì)押融資服務(wù)合同3篇
- 年度胃動(dòng)力藥市場(chǎng)分析及競(jìng)爭(zhēng)策略分析報(bào)告
- 2024-2025學(xué)年高中英語(yǔ)Unit3AtasteofEnglishhumourSectionⅤGuidedWriting如何寫(xiě)幽默類(lèi)故事性的記敘文教師用書(shū)教案新人教版必修4
- 二零二五年度農(nóng)業(yè)科技研發(fā)成果轉(zhuǎn)化合同范本集3篇
- 2025年度碼頭貨物裝卸機(jī)械租賃合同范本3篇
- 2024碎石原料生產(chǎn)設(shè)備采購(gòu)合同
- 2025年度鋁型材電商平臺(tái)合作服務(wù)合同4篇
- 2024版招生合作服務(wù)協(xié)議
- 專(zhuān)利補(bǔ)正書(shū)實(shí)例
- 《動(dòng)物生理學(xué)》課程思政優(yōu)秀案例
- 高分子材料完整版課件
- DB37∕T 5118-2018 市政工程資料管理標(biāo)準(zhǔn)
- 大氣紅色商務(wù)展望未來(lái)贏戰(zhàn)集團(tuán)年會(huì)PPT模板課件
- T∕CAWA 002-2021 中國(guó)疼痛科專(zhuān)業(yè)團(tuán)體標(biāo)準(zhǔn)
- 住宅工程公共區(qū)域精裝修施工組織設(shè)計(jì)(217頁(yè))
- 冷卻塔技術(shù)要求及質(zhì)量標(biāo)準(zhǔn)介紹
- (完整版)項(xiàng)目工程款收款收據(jù)
- 井點(diǎn)降水臺(tái)班記錄表
- 奇瑞汽車(chē)4S店各類(lèi)表格模板
評(píng)論
0/150
提交評(píng)論