生物信息學(xué)的算法_第1頁(yè)
生物信息學(xué)的算法_第2頁(yè)
生物信息學(xué)的算法_第3頁(yè)
生物信息學(xué)的算法_第4頁(yè)
生物信息學(xué)的算法_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)的算法演示文稿本文檔共29頁(yè);當(dāng)前第1頁(yè);編輯于星期二\3點(diǎn)6分生物信息學(xué)的算法本文檔共29頁(yè);當(dāng)前第2頁(yè);編輯于星期二\3點(diǎn)6分§1生物信息學(xué)研究方法概述1.1生物信息學(xué)研究的三個(gè)層面初級(jí)層面中級(jí)層面高級(jí)層面本文檔共29頁(yè);當(dāng)前第3頁(yè);編輯于星期二\3點(diǎn)6分初級(jí)層面基于現(xiàn)有的生物信息數(shù)據(jù)庫(kù)和資源,利用成熟的生物信息學(xué)工具(專(zhuān)業(yè)網(wǎng)站、軟件)解決生物信息學(xué)問(wèn)題——生物信息數(shù)據(jù)庫(kù)(NCBI、EBI等)——基因組序列分析、序列比對(duì)軟件(GCG、BLAST、CLUSTAL等)——系統(tǒng)發(fā)育樹(shù)構(gòu)造軟件(PHYLIP、PALM、MEGA等)——分子動(dòng)力學(xué)模擬軟件(GROMACS、NAMD等)——搜集、整理有特色的生物信息學(xué)數(shù)據(jù)集本文檔共29頁(yè);當(dāng)前第4頁(yè);編輯于星期二\3點(diǎn)6分中級(jí)層面利用數(shù)值計(jì)算方法、數(shù)理統(tǒng)計(jì)方法和相關(guān)的工具,研究生物信息學(xué)問(wèn)題——概率、數(shù)理統(tǒng)計(jì)基礎(chǔ)——科學(xué)計(jì)算基礎(chǔ)——現(xiàn)有的數(shù)理統(tǒng)計(jì)和科學(xué)計(jì)算工具(EXCEL、SPSS、SAS、MATLAB等)——建立有特色的生物信息學(xué)數(shù)據(jù)庫(kù)本文檔共29頁(yè);當(dāng)前第5頁(yè);編輯于星期二\3點(diǎn)6分高級(jí)層面提出有重要意義的生物信息學(xué)問(wèn)題;自主創(chuàng)新,發(fā)展新型方法,開(kāi)發(fā)新型工具,引領(lǐng)生物信息學(xué)領(lǐng)域研究方向?!嫦蛏飳W(xué)領(lǐng)域,解決生物學(xué)問(wèn)題——數(shù)學(xué)、物理、化學(xué)、計(jì)算科學(xué)等思想和方法——建立模型,發(fā)展算法——自行編程,開(kāi)發(fā)軟件,建立網(wǎng)頁(yè)(Linux系統(tǒng)、C/C++、PERL、數(shù)據(jù)庫(kù)技術(shù))本文檔共29頁(yè);當(dāng)前第6頁(yè);編輯于星期二\3點(diǎn)6分從事生物信息學(xué)研究應(yīng)具備多方面的科學(xué)基礎(chǔ):(1)、一定的計(jì)算能力,包括相應(yīng)的軟、硬設(shè)備。要有各種數(shù)據(jù)庫(kù)或者能與國(guó)際、國(guó)內(nèi)的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行有效的交流。要有發(fā)達(dá)、穩(wěn)定的互聯(lián)網(wǎng)絡(luò)系統(tǒng);(2)、強(qiáng)有力的創(chuàng)新算法和軟件。沒(méi)有算法創(chuàng)新,生物信息學(xué)就無(wú)法獲得持續(xù)的發(fā)展;(3)、與實(shí)驗(yàn)科學(xué),特別是與自動(dòng)化的大規(guī)模高通量的生物學(xué)研究方法與平臺(tái)技術(shù)建立廣泛、緊密的聯(lián)系。這些技術(shù),既是產(chǎn)生生物信息數(shù)據(jù)的主要方法,又是驗(yàn)證生物信息學(xué)研究結(jié)果的關(guān)鍵手段。從事生物信息學(xué)研究的人員必須具備多學(xué)科交叉的知識(shí)。本文檔共29頁(yè);當(dāng)前第7頁(yè);編輯于星期二\3點(diǎn)6分1.2生物信息學(xué)的“降龍十八掌”本文檔共29頁(yè);當(dāng)前第8頁(yè);編輯于星期二\3點(diǎn)6分第一式見(jiàn)龍?jiān)谔铮?)要掌握生物信息數(shù)據(jù)庫(kù)及其查詢(xún)搜索方法(Database&searching)——對(duì)分子生物信息數(shù)據(jù)庫(kù)的種類(lèi)以及某些具體數(shù)據(jù)庫(kù)的掌握和了解——從現(xiàn)有數(shù)據(jù)庫(kù)中熟練獲得需要的數(shù)據(jù)信息(尤其是二級(jí)數(shù)據(jù)庫(kù))——能熟練地進(jìn)行數(shù)據(jù)庫(kù)查詢(xún)和數(shù)據(jù)庫(kù)搜索(數(shù)據(jù)庫(kù)查詢(xún)系統(tǒng)Entrez、SRS;搜索工具BLAST等)——數(shù)據(jù)庫(kù)技術(shù)、互聯(lián)網(wǎng)技術(shù)本文檔共29頁(yè);當(dāng)前第9頁(yè);編輯于星期二\3點(diǎn)6分第二式飛龍?jiān)谔欤?)要學(xué)會(huì)生物信息學(xué)軟件和工具的應(yīng)用(Software&application)利用成熟的生物信息學(xué)工具(專(zhuān)業(yè)網(wǎng)站、軟件)解決生物信息學(xué)問(wèn)題——基因組序列分析、序列比對(duì)軟件(GCG、BLAST、CLUSTAL等)——系統(tǒng)發(fā)育樹(shù)構(gòu)造軟件(PHYLIP、PALM等……)——基因芯片檢測(cè)分析軟件(商業(yè)軟件ScanArray、Array-Pro等……)——分子動(dòng)力學(xué)模擬軟件(GROMACS、NAMD等……)本文檔共29頁(yè);當(dāng)前第10頁(yè);編輯于星期二\3點(diǎn)6分第三式鴻漸于陸(3)概率論基礎(chǔ)(Probabilitytheory)——隨機(jī)事件、概率——隨機(jī)變量、概率分布——大數(shù)定律、中心極限定理——幾乎用于生物信息學(xué)的各個(gè)方面“Mostoftheproblemsincomputationalsequenceanalysisareessentiallystatistical.”——“Biologicalsequenceanalysis”本文檔共29頁(yè);當(dāng)前第11頁(yè);編輯于星期二\3點(diǎn)6分第四式或躍在淵(4)數(shù)理統(tǒng)計(jì)基礎(chǔ)(Statisticalmethods)——樣本和統(tǒng)計(jì)量(方差、均值……)——參數(shù)估計(jì)、假設(shè)檢驗(yàn)——基本的統(tǒng)計(jì)分析(方差分析、協(xié)方差分析、回歸分析)——常用統(tǒng)計(jì)軟件的運(yùn)用(SPSS、SAS)——幾乎用于生物信息學(xué)的各個(gè)方面本文檔共29頁(yè);當(dāng)前第12頁(yè);編輯于星期二\3點(diǎn)6分第五式羚羊觸藩(5)基于頻率的組分分析方法和權(quán)重矩陣方法(Compositionanalysis&weightmatrixmethod)——符號(hào)(如堿基)頻率反映具有生物學(xué)意義的序列特征,如內(nèi)含子剪接位點(diǎn)的發(fā)現(xiàn),KOZAK規(guī)則的發(fā)現(xiàn)等——核酸組分、氨基酸組分、密碼子使用頻率——主要用于具有特定生物學(xué)意義的序列特征的分析本文檔共29頁(yè);當(dāng)前第13頁(yè);編輯于星期二\3點(diǎn)6分權(quán)重矩陣分析方法舉例——針對(duì)序列信號(hào)(一段核酸、蛋白),計(jì)算每一位點(diǎn)所使用的詞匯或叫符號(hào)(堿基、氨基酸)頻率,頻率的偏好性反映信號(hào)的序列特征(sequencepattern)。例:人類(lèi)基因內(nèi)含子/外顯子剪接位點(diǎn)的序列特征分析R=AorGY=CorUN=A,G,CorU供體位點(diǎn)受體位點(diǎn)本文檔共29頁(yè);當(dāng)前第14頁(yè);編輯于星期二\3點(diǎn)6分Bayesian打分函數(shù)用于剪接位點(diǎn)預(yù)測(cè)的公式Thelikelihoodthatapropertyvaluev

(ofanewstructure)isdrawnfromthesplicingsiteis:Scorefortheoveralllikelihoodofthequerysequence

beingasiteis:SaywehaveasequenceS=S1S2…Sn.ThenoneneedtocalculateSotolookforadonorsiteinthesequence,wemightcalculate本文檔共29頁(yè);當(dāng)前第15頁(yè);編輯于星期二\3點(diǎn)6分第六式潛龍勿用(6)信息論方法(Informationmethod)——信息熵——信息的度量:是信息符號(hào)出現(xiàn)何種狀態(tài)的一種不確定性程度,信息的獲得要對(duì)不確定性進(jìn)行否定。——生物信息的符號(hào)如ACGT四種符號(hào),狀態(tài)空間即其所有可能的排列——用于結(jié)構(gòu)預(yù)測(cè)——信息熵H刻畫(huà)了由{pi}表示的隨機(jī)試驗(yàn)結(jié)果的先驗(yàn)不確定性,或觀察到輸出時(shí)所獲得的信息量。本文檔共29頁(yè);當(dāng)前第16頁(yè);編輯于星期二\3點(diǎn)6分第七式利涉大川(7)期望最大化(EM)方法(ExpectationMaximization)——EM算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法?!m用于具有隱變量的模型和問(wèn)題,——用于結(jié)構(gòu)的識(shí)別,如Motif識(shí)別的MEME方法、HMM中的Baum-Welch算法本文檔共29頁(yè);當(dāng)前第17頁(yè);編輯于星期二\3點(diǎn)6分第八式神龍擺尾(8)動(dòng)態(tài)規(guī)劃方法(DynamicProgramming)——一種常用的多階段決策的尋優(yōu)算法——?jiǎng)討B(tài)規(guī)劃用得最多的方面是DNA序列或者蛋白質(zhì)序列比對(duì)本文檔共29頁(yè);當(dāng)前第18頁(yè);編輯于星期二\3點(diǎn)6分第九式密云不雨(9)迭代方法(Iteration)——迭代的目的通常是在狀態(tài)空間找到目標(biāo)函數(shù)收斂的穩(wěn)定解——在運(yùn)用模式識(shí)別方法時(shí),對(duì)系統(tǒng)參數(shù)的學(xué)習(xí)通常要經(jīng)過(guò)迭代來(lái)實(shí)現(xiàn)——迭代必須能夠不斷逼近穩(wěn)定解——用于上述某些方法的方法本文檔共29頁(yè);當(dāng)前第19頁(yè);編輯于星期二\3點(diǎn)6分第十式突如其來(lái)(10)回歸、擬合、相關(guān)性分析、關(guān)聯(lián)分析(Regression,fitting,correlation&association)——經(jīng)典的統(tǒng)計(jì)分析方法——主要目的:描述和預(yù)測(cè)自變量與因變量間的關(guān)系——用于上述某些方法的方法本文檔共29頁(yè);當(dāng)前第20頁(yè);編輯于星期二\3點(diǎn)6分第十一式雙龍取水(11)判別分析方法(Discriminantanalysis)——用于判別樣品所屬類(lèi)型的統(tǒng)計(jì)分析方法條件:已知研究對(duì)象總體的類(lèi)別數(shù)目及其特征(如:分布規(guī)律,或各類(lèi)的訓(xùn)練樣本)目的:判斷未知類(lèi)別的樣本的歸屬類(lèi)別——用于基因識(shí)別、醫(yī)學(xué)診斷、人類(lèi)考古學(xué)本文檔共29頁(yè);當(dāng)前第21頁(yè);編輯于星期二\3點(diǎn)6分第十二式魚(yú)躍于淵(12)聚類(lèi)分析方法(Clusteringmethod)——聚類(lèi)分析(群分析)是實(shí)用多元統(tǒng)計(jì)分析的一個(gè)新分支,正處于發(fā)展階段。理論上尚未完善,但應(yīng)用十分廣泛。實(shí)質(zhì)上是一種分類(lèi)問(wèn)題,目的是建立一種分類(lèi)方法,將一批數(shù)據(jù)按照特征的親疏、相似程度進(jìn)行分類(lèi)。——條件:研究對(duì)象總體的類(lèi)別數(shù)目未知,也不知總體樣本的具體分類(lèi)情況——目的:通過(guò)分析,選定描述個(gè)體相似程度的統(tǒng)計(jì)量、確定總體分類(lèi)數(shù)目、建立分類(lèi)方法;對(duì)研究對(duì)象給出合理的分類(lèi)。(“物以類(lèi)聚”是聚類(lèi)分析的基本出發(fā)點(diǎn))本文檔共29頁(yè);當(dāng)前第22頁(yè);編輯于星期二\3點(diǎn)6分——定性、經(jīng)驗(yàn)的分類(lèi)的局限分類(lèi)較粗、數(shù)據(jù)量小、憑借經(jīng)驗(yàn)——譜系聚類(lèi)法(系統(tǒng)聚類(lèi)法)、動(dòng)態(tài)聚類(lèi)法、模糊聚類(lèi)法——生物信息學(xué)中的聚類(lèi)分析問(wèn)題:根據(jù)DNA芯片獲得的基因表達(dá)數(shù)據(jù)進(jìn)行基因聚類(lèi)(數(shù)據(jù)量龐大)蛋白質(zhì)相互作用網(wǎng)絡(luò)的分類(lèi)根據(jù)不同物種的大分子序列進(jìn)行相似性比較并構(gòu)建系統(tǒng)發(fā)育樹(shù)X(1)X(2)X(3)X(4)X(5)GibbonSymphalangusHumanGorillaChimpanzee黑猩猩猩猩猿猴本文檔共29頁(yè);當(dāng)前第23頁(yè);編輯于星期二\3點(diǎn)6分第十三式震驚百里(13)Markov模型的應(yīng)用(Markovmodel)——Markov過(guò)程:從一種狀態(tài)轉(zhuǎn)移到另一種狀態(tài)時(shí),過(guò)程僅取決于前面n種狀態(tài),是一種有序n模型。n是影響下一個(gè)狀態(tài)選擇的狀態(tài)數(shù)?!詈?jiǎn)單的Markov過(guò)程是一階過(guò)程,狀態(tài)的選擇完全取決于前一狀態(tài),這種選擇是依照概率來(lái)選擇的?!獱顟B(tài)的選擇是概率的,而非確定的。故Markov過(guò)程本質(zhì)上是一種隨機(jī)過(guò)程。本文檔共29頁(yè);當(dāng)前第24頁(yè);編輯于星期二\3點(diǎn)6分第十四式損則有孚(14)隱Markov模型方法(HMMmethod)——將核苷酸序列看成一個(gè)隨機(jī)序列,DNA序列的編碼部分與非編碼部分在核苷酸的選用頻率上對(duì)應(yīng)著不同的Markov模型。由于這些MarkovC+G+CGCGC–G–C+C–G+G–BE0.130.120.0340.0100.0120.0030.00320.0002模型的統(tǒng)計(jì)規(guī)律是未知的,而HMM能夠自動(dòng)尋找出它們隱藏的統(tǒng)計(jì)規(guī)律。對(duì)于高等生物這樣復(fù)雜的DNA序列,HMM必須學(xué)習(xí)不同的基因結(jié)構(gòu)的信號(hào)。本文檔共29頁(yè);當(dāng)前第25頁(yè);編輯于星期二\3點(diǎn)6分隱Markov模型(HMM)語(yǔ)音識(shí)別(Speechrecognition)光字符識(shí)別(Opticalcharacterrecognition)生物序列分析(Biologicalsequenceanalysis)(1)序列比較與搜尋(尤其是多序列比對(duì))(2)基因及信號(hào)的識(shí)別、預(yù)測(cè)(包括DNA編碼與非編碼區(qū)的識(shí)別、真核基因剪接位點(diǎn)信號(hào)識(shí)別、非編碼區(qū)的轉(zhuǎn)錄調(diào)控信號(hào)識(shí)別、信號(hào)肽識(shí)別……)(3)蛋白質(zhì)二級(jí)結(jié)構(gòu)、家族、超家族預(yù)測(cè)、分類(lèi)等……生物特征識(shí)別(Biometrics)本文檔共29頁(yè);當(dāng)前第26頁(yè);編輯于星期二\3點(diǎn)6分第十五式時(shí)乘六龍(15)感知器與人工神經(jīng)網(wǎng)絡(luò)方法(Perceptron&ANNmethod)——計(jì)算機(jī)人工神經(jīng)網(wǎng)絡(luò)是對(duì)大腦神經(jīng)網(wǎng)絡(luò)的模擬,在生物信息學(xué)研究中,無(wú)論是基因識(shí)別還是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),神經(jīng)網(wǎng)絡(luò)都取得了比其它方法更為準(zhǔn)確的結(jié)果。本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論