版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、模糊聚類在DNA分類中的應(yīng)用11易杯全國大學(xué)生數(shù)學(xué)建模競賽題:生物學(xué)家發(fā)現(xiàn)DNA序列是由四種堿基A,T,C,G按一定順序排列而成,其中既沒有“斷句”,也沒有標(biāo)點(diǎn)符號(hào),同時(shí)也發(fā)現(xiàn)DNA序列的某些片段具有一定的規(guī)律性和結(jié)構(gòu). 由此人工制造兩類序列(A類編號(hào)為110;B類編號(hào)為1120).現(xiàn)在的問題是如何找出比較滿意的方法來識(shí)別未知的序列(編號(hào)為2140), 并判斷它們那些屬于A類,那些屬于B類, 那些既不屬于A類又不屬于B類.問題:2問題數(shù)學(xué)模型為了表述的嚴(yán)格和方便 ,本文用數(shù)學(xué)的語言來重述這個(gè)問題: 已知字母序列 和字母序列集合A,B, ,其中 ,當(dāng) i 1, 10 時(shí)
2、, A;當(dāng) i 11, 2 時(shí), B,現(xiàn)要求當(dāng) 21i40時(shí),字母序列S 與集合 A及集合 B的關(guān)系。以下是計(jì)算出題中所給的序列1-20中的A , C,G, T的含量百分比如下表:34(1) 原始數(shù)據(jù)標(biāo)準(zhǔn)化首先對樣本數(shù)據(jù)進(jìn)行預(yù)處理,并將數(shù)據(jù)壓縮到0,1閉區(qū)間內(nèi)。其中: 表示第i個(gè)DNA序列的第j個(gè)指標(biāo)(1)(3) (2)(4)5(1) 原始數(shù)據(jù)標(biāo)準(zhǔn)化其中 , ,分別表示 中的最小值和最大值。當(dāng) 時(shí),則 ;當(dāng) 時(shí),則 。將N個(gè)樣本的第j個(gè)指標(biāo)的平均值公式(1)及標(biāo)準(zhǔn)差公式(2)帶入原始數(shù)據(jù)標(biāo)準(zhǔn)化公式(3),即可得到標(biāo)準(zhǔn)化數(shù)據(jù)。然后再運(yùn)用如下極值標(biāo)準(zhǔn)化公式(4),將公式(3)得到標(biāo)準(zhǔn)化數(shù)據(jù)壓縮到0
3、,1內(nèi),得到原始數(shù)據(jù)標(biāo)準(zhǔn)化并壓縮到0,1范圍后的輸出數(shù)見下表.6標(biāo)準(zhǔn)化后的第1-20組DNA序列樣本指標(biāo) 7(2) 模糊矩陣的確定及聚類過程分析引入模糊相似矩陣如下:其中, 表示樣本 與 之間的相似程度,當(dāng) 接近于1時(shí),表明這兩個(gè)樣本相似程度較高。對應(yīng)于本文中 分別表示第i個(gè)和第j個(gè)DNA樣本序列。8(2) 模糊矩陣的確定及聚類過程分析由于模糊相似矩陣R的確定方法有很多,經(jīng)過對數(shù)量積法、相關(guān)系數(shù)法等11種常用方法的演算,本文從中選取了分類正確率較高的2種方法進(jìn)行詳細(xì)闡述并給出了分類結(jié)果。a. 相關(guān)系數(shù)法當(dāng) 時(shí),得到模糊相似矩陣,然后用傳遞閉包法確定模糊等價(jià)矩陣。(其中為閾值,大于或等于取 1,
4、小于取 0,從而獲得一個(gè)新矩陣, 將矩陣中相同的行歸類,便可得到最后的分析結(jié)果。)9分類結(jié)果是: 1,2,3,5,6,7,8,9,10,11,12,13,14,15,16,18,19,20,4,17得到的模糊等價(jià)矩陣:10(2) 模糊矩陣的確定及聚類過程分析b. 夾角余弦法當(dāng) 時(shí),分類結(jié)果為:1,2,3,5,6,7,8,9,10,11,12,13,14,15,16,18,19,20,4,17(具體步驟如相關(guān)系數(shù)法)11(3)結(jié)果分析綜合分析所有的模糊聚類分析結(jié)果發(fā)現(xiàn),相關(guān)系數(shù)法、夾角余弦法、歐氏距離法得到的分類結(jié)果完全相同,均為1,2,3,5,6,7,8,9,10,11,12,13,14,15
5、,16,18,19,20,4,17正確率達(dá)90%,以此作為以堿基含量為特征下的模糊聚類分析方法的分類結(jié)果,并認(rèn)為采用如上三種模糊聚類分析方法對DNA序列分類具有可行性。12解決問題由此我們分別運(yùn)用如下3種方法對序列 DNA序列 21 - 40進(jìn)行模糊聚類分析 ,得到結(jié)果如下:相關(guān)系數(shù)法( = 0 . 85)分類結(jié)果: 21 24 26 28 31 33 38 40 , 22 23 25 27 29 30 34 35 36 37 39 , 32夾角余弦法( = 0 . 75)分類結(jié)果: 21 24 26 28 31 33 38 40 , 22 23 25 27 29 30 34 35 36 37
6、 39 , 32歐氏距離法 ( = 0 . 75)分類結(jié)果: 21 24 26 28 31 33 38 40 , 22 23 25 27 29 30 34 35 36 37 39 , 3213解決問題綜合上述的模糊聚類分析方法 ,將 21 - 40個(gè) DNA序列大致分為如下 3類 , 其分類結(jié)果為: 21 24 26 28 31 33 38 40 , 22 23 25 27 29 30 34 35 36 37 39 , 32其中編號(hào)為 32的 DNA序列無法準(zhǔn)確歸類.14結(jié)論和分析綜合以上所有的模糊聚類分析結(jié)果 ,我們得到序列 21 - 40的 DNA序列分類的最終結(jié)果:A類: 22 23 25 27 29 30 34 35 36 37 39 B類: 21 24 26 28 31 32 33 38 40 分析上述所有的 DNA序列分類結(jié)果 ,我們還可以發(fā)現(xiàn) ,模糊聚類分析中的相關(guān)系數(shù)法在對 DNA序列分類時(shí) ,它得到的分類結(jié)果在所有模糊聚類分析方法中表現(xiàn)最優(yōu)。DNA序列分類方法種類繁多 ,但它們都有一個(gè)共同特點(diǎn):分類結(jié)果精度不高;本文運(yùn)用模糊聚類分析的方法 ,忽略了 DNA序列內(nèi)部堿基排序規(guī)律 ,從宏觀角度對 DNA序列進(jìn)行分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 播種機(jī)的課程設(shè)計(jì)
- 2024-2030年全球及中國天然可食用色素行業(yè)銷售渠道及競爭前景預(yù)測報(bào)告
- 2024-2030年全球及中國再生模塑纖維包裝行業(yè)需求前景及供應(yīng)情況預(yù)測報(bào)告
- 2024-2030年全球及中國書籍電商平臺(tái)行業(yè)營銷策略及投資盈利預(yù)測報(bào)告
- 2024-2030年全球及中國5氯2羥基苯甲酸行業(yè)運(yùn)營態(tài)勢及供需前景預(yù)測報(bào)告~
- 2024-2030年中諾奇奧產(chǎn)業(yè)公司技術(shù)改造及擴(kuò)產(chǎn)項(xiàng)目可行性研究報(bào)告
- 2024-2030年中國黃金產(chǎn)業(yè)行發(fā)展規(guī)劃及投資分析預(yù)測研究報(bào)告
- 文化安全微課程設(shè)計(jì)
- 房地產(chǎn)管理體系課程設(shè)計(jì)
- 機(jī)械專業(yè)課程設(shè)計(jì)配套
- 2024年01月11032成本管理期末試題答案
- 年高考新課標(biāo)I卷語文試題講評(píng)課件
- 2024年高中班主任德育工作計(jì)劃(5篇)
- 浙江省嘉興市2023-2024學(xué)年高二上學(xué)期1月期末檢測數(shù)學(xué)試題
- 2024-2025學(xué)年語文二年級(jí)上冊 部編版期末測試卷 (含答案)
- 廢棄油管道注漿施工方案
- 2021-2022學(xué)年廣東省深圳市龍崗區(qū)六年級(jí)上學(xué)期期末英語試卷
- 資金托盤業(yè)務(wù)協(xié)議
- 消防水帶使用培訓(xùn)
- 電力設(shè)備維護(hù)保養(yǎng)計(jì)劃手冊
- 滑坡治理工程監(jiān)測實(shí)施方案
評(píng)論
0/150
提交評(píng)論