數(shù)學(xué)模型在生物信息學(xué)教學(xué)中的應(yīng)用_第1頁
數(shù)學(xué)模型在生物信息學(xué)教學(xué)中的應(yīng)用_第2頁
數(shù)學(xué)模型在生物信息學(xué)教學(xué)中的應(yīng)用_第3頁
數(shù)學(xué)模型在生物信息學(xué)教學(xué)中的應(yīng)用_第4頁
數(shù)學(xué)模型在生物信息學(xué)教學(xué)中的應(yīng)用_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、目 錄目 錄i摘 要ii第一部分 數(shù)學(xué)建模11 數(shù)學(xué)建模的介紹12 數(shù)學(xué)建模的主要內(nèi)容13 數(shù)學(xué)建模的流程24 數(shù)學(xué)建模的主要算法25 數(shù)學(xué)建模的軟件3第二部分 生物信息學(xué)31 什么是生物信息學(xué)32 生物信息學(xué)的研究方向3第三部分 生物信息學(xué)與數(shù)學(xué)建模的交叉31 方法和技術(shù)的交叉31.1 數(shù)學(xué)統(tǒng)計方法41.2 動態(tài)規(guī)劃方法41.3 機(jī)器學(xué)習(xí)41.4 數(shù)據(jù)挖掘41.5 生物分子的計算機(jī)模擬52 目的上的相似5第四部分 數(shù)學(xué)建模在生物信息學(xué)中的部分應(yīng)用51 運用數(shù)學(xué)模型的預(yù)測52 運用數(shù)學(xué)模型的數(shù)據(jù)分析6參考文獻(xiàn)7數(shù)學(xué)建模在生物信息學(xué)中的應(yīng)用研究摘 要本文首先介紹了數(shù)學(xué)建模和生物信息學(xué)的基礎(chǔ)知識,

2、然后分析了數(shù)學(xué)建模和生物信息學(xué)的交叉知識點。分析顯示,數(shù)學(xué)建模和生物信息學(xué)不僅在統(tǒng)計方法和數(shù)據(jù)挖掘等使用方法和技術(shù)方面存在交叉知識點,還在目的上具有一定的相似性,即兩者都是對大量的數(shù)據(jù)進(jìn)行統(tǒng)計和分析,都以解決問題為最終目的。最后,文章重點回顧了數(shù)學(xué)建模在生物信息學(xué)中數(shù)據(jù)分析和結(jié)構(gòu)預(yù)測方面的部分應(yīng)用。關(guān)鍵詞:數(shù)學(xué)建模 生物信息學(xué) 應(yīng)用研究ii 第一部分 數(shù)學(xué)建模1 數(shù)學(xué)建模的介紹從航空航天領(lǐng)域中的火箭發(fā)射、武器的自動導(dǎo)航,到企業(yè)中該如何配置人力、物力和財力,進(jìn)而用最小的成本產(chǎn)生最大的利潤,再到生活中如何規(guī)劃自己有限的時間復(fù)習(xí)期末考試,等等。這都或多或少地運用到了數(shù)學(xué)建模的知識。數(shù)學(xué)建模是一個將實

3、際問題用數(shù)學(xué)的語言、方法,去近似刻畫、建立相應(yīng)數(shù)學(xué)模型并解決科研、生產(chǎn)和生活中的實際問題的過程。數(shù)學(xué)建模的問題比較廣泛,涉及到多學(xué)科知識,它不追求解決方法的天衣無縫,不追求所用數(shù)學(xué)知識的高深,也不追求理論的嚴(yán)密邏輯,它以解決問題為主要目的。模型的建立,即把錯綜復(fù)雜的實際問題簡化、抽象化為具有合理的數(shù)學(xué)結(jié)構(gòu)的過程。通過調(diào)查、收集數(shù)據(jù)資料,觀察和研究實際對象的固有特征和內(nèi)在規(guī)律,抓住問題的主要矛盾,建立起反映實際問題的數(shù)量關(guān)系,然后利用數(shù)學(xué)的理論和方法去分折和解決問題。隨著科學(xué)技術(shù)的飛速發(fā)展,人們越來越認(rèn)識到數(shù)學(xué)的重要性:數(shù)學(xué)的思考方式具有根本的重要性,數(shù)學(xué)為組織和構(gòu)造知識提供了方法,將它用于技術(shù)

4、時能使科學(xué)家和工程師生產(chǎn)出系統(tǒng)的、能復(fù)制的、且可以傳播的知識數(shù)學(xué)對于經(jīng)濟(jì)競爭是必不可少的,數(shù)學(xué)科學(xué)是一種關(guān)鍵性的、普遍的、可實行的技術(shù)。在當(dāng)今高科技與計算機(jī)技術(shù)日新月異且日益普及的社會里,高新技術(shù)的發(fā)展離不開數(shù)學(xué)的支持,沒有良好的數(shù)學(xué)素養(yǎng)已無法實現(xiàn)工程技術(shù)的創(chuàng)新與突破。 2 數(shù)學(xué)建模的主要內(nèi)容數(shù)學(xué)建模理論包含統(tǒng)計回歸模型、優(yōu)化模型、圖論模型、微分模型和概率模型等【1-3】,如表1所示。1表1 數(shù)學(xué)建模的主要內(nèi)容統(tǒng)計回歸模型運籌與優(yōu)化模型圖論與網(wǎng)絡(luò)模型微分差分模型概率模型數(shù)學(xué)挖掘聚類分析層次分析線性回歸非線性回歸主成分分析時間序列分析數(shù)據(jù)擬合與插值博弈論線性規(guī)劃整數(shù)規(guī)劃目標(biāo)規(guī)劃動態(tài)規(guī)劃非線性規(guī)劃

5、多目標(biāo)決策存貯論模型圖論模型最小生成樹最大流問題最短路徑問題最長路徑問題pert網(wǎng)絡(luò)圖模型最小費用流問題gm模型微分方程模型穩(wěn)定性模型差分方差模型灰色預(yù)測模型偏微分方程模型隨機(jī)模擬計算機(jī)模擬決策論模型排隊論模型馬氏鏈模型3 數(shù)學(xué)建模的流程圖1數(shù)學(xué)建模的流程34 數(shù)學(xué)建模的主要算法蒙特卡羅算法該算法又稱隨機(jī)性模擬算法,是通過計算機(jī)仿真來解決問題的算法,同時可以通過模擬可以來檢驗自己模型的正確性。數(shù)據(jù)處理算法通常會遇到大量的數(shù)據(jù)需要數(shù)據(jù)擬合、參數(shù)估計、插值等處理,通常使用matlab作為工具。規(guī)劃算法遇到線性規(guī)劃、整數(shù)規(guī)劃、多元規(guī)劃、二次規(guī)劃等最優(yōu)化問題,可以用數(shù)學(xué)規(guī)劃算法來描述,通常使用ling

6、o軟件實現(xiàn)。圖論算法包括最短路、網(wǎng)絡(luò)流、二分圖等算法。動態(tài)規(guī)劃、回溯搜索、分治算法、分支定界等算法。非經(jīng)典算法模擬退火法、神經(jīng)網(wǎng)絡(luò)、遺傳算法為最優(yōu)化理論的三大非經(jīng)典算法。5 數(shù)學(xué)建模的軟件數(shù)學(xué)建模有專用的軟件:matlab 7, lingo 8為其中最主要的軟件,其他重要的軟件有mathematice,s-plus,sas等。第二部分 生物信息學(xué)1 什么是生物信息學(xué)生物信息學(xué)是一門新興的交叉學(xué)科,它使用數(shù)學(xué)和計算機(jī)這兩項工具,對日益增長的生物數(shù)據(jù)進(jìn)行快速、高效的組織與分析。生物信息學(xué)的近期任務(wù)是大規(guī)模的基因組測序中的信息分析、新基因和新snp的發(fā)現(xiàn)與鑒定、完整基因組的比較研究、大規(guī)?;蚬δ鼙?/p>

7、達(dá)譜的分析、生物大分子的結(jié)構(gòu)模擬與藥物分析,其遠(yuǎn)期任務(wù)是非編碼區(qū)信息結(jié)構(gòu)分析、遺傳密碼起源和生物進(jìn)化的研究。2 生物信息學(xué)的研究方向生物信息學(xué)的發(fā)展異常迅速,現(xiàn)主要包括dna序列對比、蛋白質(zhì)結(jié)構(gòu)對比與預(yù)測、編碼區(qū)的基因識別、序列重疊群(contigs)裝配、基于結(jié)構(gòu)的藥物設(shè)計、非編碼區(qū)的分析研究、遺傳密碼的起源、分子進(jìn)化與比較基因組學(xué)、生物系統(tǒng)的建模和仿真、生物信息學(xué)技術(shù)方法的研究等幾個研究方向【4-6】。第三部分 生物信息學(xué)與數(shù)學(xué)建模的交叉 生物信息學(xué)是利用數(shù)學(xué)和計算機(jī)作為工具,不可避免地與數(shù)學(xué)建模,這一利用計算機(jī)和數(shù)學(xué)理論解決實際問題的學(xué)科,無論在研究方法和技術(shù)上,還是在運用目的上均產(chǎn)生一

8、定的交叉。1 方法和技術(shù)的交叉 生物信息學(xué)所使用的方法與技術(shù)包括數(shù)學(xué)統(tǒng)計方法、動態(tài)規(guī)劃方法、機(jī)器學(xué)習(xí)與模式識別技術(shù)、數(shù)據(jù)庫技術(shù)與數(shù)據(jù)挖掘、人工神經(jīng)網(wǎng)絡(luò)技術(shù)、生物分子的計算機(jī)模擬等,而這些恰恰是數(shù)學(xué)建模領(lǐng)域的核心理論與知識。1.1 數(shù)學(xué)統(tǒng)計方法 數(shù)據(jù)統(tǒng)計、因素分析、多元回歸分析是生物學(xué)研究必備的工具,而這些是數(shù)學(xué)建模的統(tǒng)計回歸模型中最為基礎(chǔ)的知識;隱馬爾科夫模型(hidden markov models)在序列分析方面有著重要的應(yīng)用,與隱馬爾科夫模型相關(guān)的技術(shù)是馬爾科夫鏈(markov chain),而馬爾科夫鏈模型正是數(shù)學(xué)建模中針對離散狀態(tài)按照離散時間的隨機(jī)轉(zhuǎn)移而建立的模型??傊镄畔W(xué)和

9、數(shù)學(xué)建模有的第一個共同點是,都有對海量數(shù)據(jù)進(jìn)行統(tǒng)計分析的過程。1.2 動態(tài)規(guī)劃方法動態(tài)規(guī)劃(dynamic programming)是一種解決多階段決策過程的最優(yōu)化方法,在每個階段做出一定的決策并影響后續(xù)的決策,最終選擇一個最優(yōu)決策。當(dāng)兩個dna序列長度較小時,采用動態(tài)規(guī)劃算法可以很好地解決兩個序列的相似性問題。當(dāng)序列長度太長時,改進(jìn)的balst和fasta算法也是基于動態(tài)規(guī)劃的思想。同時,動態(tài)規(guī)劃在數(shù)學(xué)建模領(lǐng)域也被用來解決最短路線、庫存管理、資源分配等生產(chǎn)和生活中的現(xiàn)實問題。1.3 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)一般采用遺傳算法、神經(jīng)網(wǎng)絡(luò)或聚類分析等,模擬人類的學(xué)習(xí)過程,以計算機(jī)為工具獲取知識、積累經(jīng)驗

10、,在擁有大樣本、多向量數(shù)據(jù)的數(shù)據(jù)分析中發(fā)揮著日益重要的作用。比如,聚類分析已經(jīng)運用于癌癥類型的分類,神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型對于缺乏完備理論體系的生物領(lǐng)域也同樣奏效。以上聚類分析、神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型均為數(shù)學(xué)建模中的重點方法。1.4 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘又被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn),在此意義上,生物信息學(xué)也是在海量的生物數(shù)據(jù)中發(fā)掘生命的奧秘?;蛐蛄邪ㄍ怙@子和內(nèi)含子,其中外顯子只占其中的一小部分。大部分的內(nèi)含子序列的作用并不為人知,如何從這些簡單的acgt序列中發(fā)現(xiàn)內(nèi)含子如何參與基因的轉(zhuǎn)錄與翻譯變得異常重要。比如,利用一階和二階馬爾可夫鏈的方法偵測密碼區(qū)。1.5 生物分子的計算機(jī)模擬 所謂生

11、物分子的計算機(jī)模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計算機(jī)進(jìn)行模擬實驗,預(yù)測生物分子的結(jié)構(gòu)和功能,預(yù)測動力學(xué)及熱力學(xué)等方面的性質(zhì),常用的方法是蒙特卡羅法和模擬退火方法。2 目的上的相似數(shù)學(xué)建模與生物信息學(xué)都會對大量的數(shù)據(jù)進(jìn)行統(tǒng)計和分析,都以解決問題為最終目的,并且以求得滿意解為重點,因為有時全局最優(yōu)解難以得到。另外,數(shù)學(xué)建模和生物信息學(xué)的研究都更強(qiáng)調(diào)能否具有實用性。比如生物信息學(xué)的機(jī)器學(xué)習(xí)技術(shù)中運用到了神經(jīng)網(wǎng)路或隱馬氏模型,但人們目前并不清楚該算法或模型是如何到達(dá)解的,即對其具體的機(jī)理并不十分了解。但這并不妨礙我們使用這種方法,因為這種方法具有使用成功性和可用

12、性。在這個意義上,數(shù)學(xué)建模也經(jīng)常通過此類“黑箱” 操作達(dá)到特定解。正如cynthia gibas和per jambeck在developing bioinformatics computer skills的前言所說,生物信息學(xué)“is often less about developing perfectly elegant algorithms than it is about answering practical questions”。從這個意義上說,數(shù)學(xué)建模與生物信息學(xué)有著目的上的相似性。第四部分 數(shù)學(xué)建模在生物信息學(xué)中的部分應(yīng)用1.運用數(shù)學(xué)模型的預(yù)測1993年rost和sander6提

13、出了三級網(wǎng)絡(luò)模型,這種神經(jīng)網(wǎng)絡(luò)方法已經(jīng)成為了蛋白質(zhì)結(jié)構(gòu)預(yù)測普遍采用的方法。2003年閆化軍等7人也通過神經(jīng)網(wǎng)絡(luò)算法預(yù)測蛋白質(zhì)二級結(jié)構(gòu)。2007年林衛(wèi)中等8人將gm(1,1)模型應(yīng)用于蛋白質(zhì)二級結(jié)構(gòu)類型的預(yù)測,把提取出的蛋白質(zhì)氨基酸的排列信息作為偽氨基酸成分,從而較大的提高了預(yù)測的成功率。2008年邱望仁等9人將oet-knn算法應(yīng)用于蛋白質(zhì)二級結(jié)構(gòu)類型的預(yù)測,通過lz復(fù)雜度的算法計算了偽氨基酸的成分,再用oet-knn算法分類預(yù)測,從而也較大的提高了預(yù)測的成功率。bader等10人將logistic回歸模型用來預(yù)測蛋白質(zhì)之間的生物學(xué)關(guān)系,這種運用使得通過遺傳學(xué)和基因表達(dá)數(shù)據(jù)來分析蛋白質(zhì)數(shù)據(jù)成為

14、了可能。2006年王明會等11人將markov鏈模型應(yīng)用于蛋白質(zhì)可溶性的預(yù)測,預(yù)測精度普遍好于或接近于神經(jīng)網(wǎng)絡(luò)、信息論和支持向量機(jī)法的結(jié)果,而且該模型的運算復(fù)雜度低,耗時也更短。2006年張菁晶等12人將隱馬爾可夫模型運用于目標(biāo)基因全基因組的預(yù)測,同量高、準(zhǔn)確度高并且操作簡單,尤其在多結(jié)構(gòu)域蛋白家族的預(yù)測上優(yōu)勢明顯。2008年劉桂霞等13人提出了一種帶偏差單元的遞歸神經(jīng)網(wǎng)絡(luò)模型。該模型根據(jù)bp算法得出權(quán)系數(shù)調(diào)整規(guī)則,使得收斂速度比一般的bp網(wǎng)絡(luò)更快,對于預(yù)測蛋白質(zhì)關(guān)聯(lián)圖有一定的實用價值。2.運用數(shù)學(xué)模型的數(shù)據(jù)分析1997年carr等14研究了大鼠脊髓的基因活動,通過聚類分析證明具有已知相似功能

15、的基因?qū)儆谝活悺?006年張文彤等15人綜合了聚類方法和進(jìn)化樹分析的優(yōu)點,通過先聚類將數(shù)據(jù)拆分,然后根據(jù)聚類的類別構(gòu)建進(jìn)化樹,這種方法可以很好地在大樣本數(shù)據(jù)中應(yīng)用,并以甲型流感病毒的h3a1序列作為實例,構(gòu)建拼接出了完整的進(jìn)化樹結(jié)果。2006年徐麗等16人針對viterbi算法和baum-welch算法在隱馬爾可夫模型(hidden markov model)的參數(shù)估計中無法找到全局最優(yōu)解,提出了基于遺傳算法的hmm參數(shù)估計,這種方法用于多序列對比研究時可以更好的避免局部最優(yōu)解。2007年周曉彥等17人通過綜合模糊數(shù)學(xué)和核判別方法的優(yōu)點,提出了一種基于模糊核判別分析的基因表達(dá)數(shù)據(jù)分析方法,并以

16、多發(fā)性骨髓瘤的基因表達(dá)數(shù)據(jù)為例證實了這種方法的可行性和精確性。2007年劉萬霖等18人介紹了構(gòu)建基因調(diào)控網(wǎng)絡(luò)的多種算法和方法,比如馬爾可夫鏈可以用于分析時間序列微陣列表達(dá)數(shù)據(jù);將隨機(jī)和概率等引入布爾網(wǎng)絡(luò)模型,可以增強(qiáng)基因網(wǎng)絡(luò)調(diào)控的精確性;貝葉斯網(wǎng)絡(luò)模型在friedman和peer等人做出了開拓性的工作后,在基因表達(dá)數(shù)據(jù)和調(diào)控網(wǎng)絡(luò)方面得到了快速的發(fā)展。參考文獻(xiàn)1 馮杰等.數(shù)學(xué)建模原理與案例.科學(xué)出版社,2007.2 高隆昌,楊元著.數(shù)學(xué)建?;A(chǔ)理論.科學(xué)出版社,2007.3 戴朝壽,孫世良. 數(shù)學(xué)建模簡明教程. 高等教育出版社,2007.4 陶士珩. 生物信息學(xué). 科學(xué)出版社,2007.5 da

17、vid w. mount.生物信息學(xué):中文版. 高等教育出版社,2003.6 rost b, sander c. proc. natl. acad. sci. usa, biothysics, 1993,90:7558-75627 閆化軍,傅 彥,章 毅等.神經(jīng)網(wǎng)絡(luò)方法預(yù)測蛋白質(zhì)二級結(jié)構(gòu).計算機(jī)科學(xué).2003,30(11):48-528 林衛(wèi)中, 肖絢. 基于gm(1,1)模型的蛋白質(zhì)二級結(jié)構(gòu)類型預(yù)測. 計算機(jī)工程與應(yīng)用, 2007, 43(34): 41-459 邱望仁, 肖絢, 林衛(wèi)中. 基于oet-knn算法的蛋白質(zhì)二級結(jié)構(gòu)類型預(yù)測. 計算機(jī)工程與應(yīng)用, 2008, 44(29): 20

18、4-21010 bader js,chaudhuri a,rothberg jm,et al. gaining confidence in high-throughput protein interaction network. nat biotechnol,2004,22: 78-8511 王明會, 李 驁, 王嫻等. markov鏈模型在蛋白質(zhì)可溶性預(yù)測中的應(yīng)用. 生物醫(yī)學(xué)工程學(xué)雜志, 2006, 23(5): 1109-111312 張菁晶,馮 晶,朱英國.全基因組預(yù)測目標(biāo)基因的新方法及其應(yīng)用.遺傳.2006,28(10):1299-130513 劉桂霞, 于哲舟, 周春光. 基于帶偏差遞歸神經(jīng)網(wǎng)絡(luò)蛋白質(zhì)關(guān)聯(lián)圖的預(yù)測. 吉林大學(xué)學(xué)報(理學(xué)版), 2008, 46(2): 265-27014 carr db, somogyi r, michaels g. templates for looking at gene expression clustering. statistical compu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論