生物信息學(系統(tǒng)發(fā)生)_第1頁
生物信息學(系統(tǒng)發(fā)生)_第2頁
生物信息學(系統(tǒng)發(fā)生)_第3頁
生物信息學(系統(tǒng)發(fā)生)_第4頁
生物信息學(系統(tǒng)發(fā)生)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一章 生物信息學引論1.1 引言 生物信息學概念20世紀是科學技術(shù)迅速發(fā)展的世紀,物理和化學的發(fā)展使我們可以清楚地認識物質(zhì)的組成,從分子、原子、電子等各層次上深入地了解微觀世界,而天文技術(shù)、空間技術(shù)的發(fā)展則使得我們可以了解地球以外的客觀世界,以電子信息技術(shù)為龍頭的工業(yè)技術(shù)的飛速發(fā)展,使得我們可以不斷地改造世界,甚至為人類更加舒適地生活創(chuàng)造新的世界。生命科學在20世紀同樣也得到了發(fā)展,生理學、 細胞生物學、分子生物學等學科的發(fā)展使我們從器官、組織、細胞、生物大分子等各個層次認識了生命的物質(zhì)基礎(chǔ)。生物與其他物質(zhì)有本質(zhì)的區(qū)別,生物并非只是物質(zhì)的簡單堆積,生物體的生長發(fā)育是生命信息控制之下的復雜而有

2、序的過程。目前,我們對生命的奧秘還不甚了解,對生命信息的組織、傳遞和表達還知之甚少。既然這牽涉到信息的組織、傳遞和表達,我們就可以用信息科學的方法和技術(shù)來嘗試認識和分析生命信息。人類為了更深入地了解和認識自身,制定了宏偉的人類基因組計劃。人類基因組計劃順利實施,產(chǎn)生了大量的生物分子數(shù)據(jù)。據(jù)權(quán)威機構(gòu)統(tǒng)計,目前生物分子數(shù)據(jù)量每15個月翻一翻,生物分子數(shù)據(jù)發(fā)展的速度甚至超過了摩爾定律(即半導體芯片上的晶體管數(shù)量每18個月翻一翻)。這些生物分子數(shù)據(jù)具有豐富的內(nèi)涵,其背后隱藏著人類目前尚不知道的生物學知識。充分利用這些數(shù)據(jù),通過數(shù)據(jù)分析、處理,揭示這些數(shù)據(jù)的內(nèi)涵,從而得到對人類有用的信息,是生物學家、數(shù)

3、學家和計算機科學家所面臨的一個嚴峻的挑戰(zhàn)。生物信息學就是為迎接這種挑戰(zhàn)而發(fā)展起來的一門新型學科,它是由生物學、應(yīng)用數(shù)學、計算機科學相互交叉所形成的學科,是當今生命科學和自然科學的重大前沿領(lǐng)域之一,也是21世紀自然科學的核心領(lǐng)域之一。生物信息學(Bioinformatics)這個名詞有許多不同的定義。從字面上來看,生物信息學是將信息科學和技術(shù)應(yīng)用于生物學。生物信息學廣義的概念是指應(yīng)用信息科學的方法和技術(shù),研究生物體系和生物過程中信息的存貯、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息,或者也可以說成是生命科學中的信息科學。生物信息學狹義的概念是指

4、應(yīng)用信息科學的理論、方法和技術(shù),管理、分析和利用生物分子數(shù)據(jù)。通過收集、組織、管理生物分子數(shù)據(jù),使研究人員能夠迅速地獲得和方便地使用相關(guān)信息;通過處理、分析、挖掘生物分子數(shù)據(jù),得到深層次的生物學知識,加深對生物世界的認識;在生物學、醫(yī)學的研究和應(yīng)用中,利用生物分子數(shù)據(jù)及其分析結(jié)果,可以大大提高研究和開發(fā)的科學性及效率,如根據(jù)基因功能分析結(jié)果來檢測與疾病相關(guān)的基因,根據(jù)蛋白質(zhì)分析結(jié)果進行新藥設(shè)計。一般提到的生物信息學是就指這個狹義的概念,更準確地說,應(yīng)該是分子生物信息學(Molecular Bioinformatics)。生物信息學以計算機、網(wǎng)絡(luò)為工具,采用數(shù)學和信息科學的理論、方法和技術(shù)去研究

5、生物大分子,其研究重點主要落實在核酸和蛋白質(zhì)兩個方面,包括它們的序列、結(jié)構(gòu)和功能。生物信息學以基因組DNA序列信息分析作為出發(fā)點,破譯遺傳語言,認識遺傳信息的組織規(guī)律,辨別隱藏在DNA序列中的基因,掌握基因調(diào)控信息,對蛋白質(zhì)空間結(jié)構(gòu)進行模擬和預測,依據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系進行藥物分子設(shè)計。與生物信息學相關(guān)的概念還有計算分子生物學(Computational Molecular Biology),計算分子生物學主要研究分析方法,開發(fā)分析工具,促進生物分子數(shù)據(jù)的分析。與生物信息學相關(guān)的另一個名詞是生物計算(Biocomputing),生物計算特指用計算機技術(shù)分析和處理生物分子數(shù)據(jù)。生物信息學的產(chǎn)

6、生一方面是由于生物科學和技術(shù)的發(fā)展,另一方面是由于人類基因組計劃的實施。其實,早在20世紀50年代生物信息學就已經(jīng)形成萌芽,20世紀70年代就已經(jīng)產(chǎn)生生物信息學的基本思想,但是生物信息學的真正發(fā)展則是在20世紀的90年代,在人類基因組計劃的推動下,生物信息學才得以迅猛發(fā)展。人類基因組計劃產(chǎn)生的生物分子數(shù)據(jù)是生物信息學的源泉,而人類基因組計劃所需要解決的問題則是生物信息學發(fā)展的動力。 生物分子信息生物體是一個復雜的系統(tǒng),生命過程是一個極端復雜的過程,需要物質(zhì)和能量的支持。生物體同時也是一個信息系統(tǒng),該系統(tǒng)控制著生物的遺傳、生長和發(fā)育。所有的信息都存貯在生物體內(nèi)的遺傳物質(zhì)中。在生命科學的研究中,人

7、們已經(jīng)逐漸認識到,不僅需要用物理、化學和生物學方法研究生命的物質(zhì)基礎(chǔ)、能量轉(zhuǎn)換、代謝過程等,還需要用信息科學方法研究生命信息特別是遺傳信息的組織、復制、傳遞、表達及其作用,否則難以理解生命的工作機制,難以揭示生命的奧秘。從生物學的觀點來看,細胞是生命的基本單位,而從信息科學的觀點來看,細胞則是存貯、復制和傳遞遺傳信息的系統(tǒng)。生物系統(tǒng)通過存貯、修改、解讀遺傳信息和執(zhí)行遺傳指令形成特定的生命活動,促使生物體生長發(fā)育,產(chǎn)生生物進化。從信息學的角度來看,生物分子是生物信息的載體,生物信息學主要研究兩種載體,即DNA分子和蛋白質(zhì)分子。生物分子至少攜帶著三種信息,即遺傳信息、與功能相關(guān)的結(jié)構(gòu)信息、進化信息

8、。DNA是遺傳信息的載體。DNA的核苷酸序列上存儲著蛋白質(zhì)的氨基酸序列編碼信息,存儲著基因表達調(diào)控的信息,存儲著遺傳信息。遺傳信息存儲在DNA四種字符組成的序列中,生物體生長發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達。因此,可以說DNA序列包含著最基本的生命信息。存儲在DNA中的信息使無活力的分子組織成有功能的活細胞,進而構(gòu)成能進行新陳代謝、生長和繁殖的生物體。人們已經(jīng)認識到遺傳信息的載體主要是DNA在少數(shù)情況下核糖核酸(RNA)也充當遺傳信息的載體,控制生物體性狀的基因是一系列DNA片段。一方面,DNA通過自我復制,在生物體的繁衍過程中傳遞遺傳信息。另一方面,基因通過轉(zhuǎn)錄和翻譯,使遺傳信息在生物個體

9、中得以表達,并使后代表現(xiàn)出與親代相似的生物性狀。在基因表達過程中,基因上的遺傳信息首先通過轉(zhuǎn)錄從DNA傳到RNA,然后再通過翻譯從RNA傳遞到蛋白質(zhì)?;蚩刂浦鞍踪|(zhì)的合成,從基因的DNA序列到蛋白質(zhì)序列存在著一種明確的對應(yīng)關(guān)系,而這種對應(yīng)關(guān)系就是我們所知道的第一遺傳密碼。蛋白質(zhì)分子在生物體內(nèi)執(zhí)行著各項重要任務(wù),如生化反應(yīng)的催化、營養(yǎng)物質(zhì)的輸運、信號的識別與傳遞等。蛋白質(zhì)的功能多種多樣,但是必須注意一點,即蛋白質(zhì)功能取決于蛋白質(zhì)的空間結(jié)構(gòu)。要了解和掌握蛋白質(zhì)的功能必須首先分析蛋白質(zhì)的結(jié)構(gòu),對于其它生物大分子也一樣。因此,蛋白質(zhì)結(jié)構(gòu)是一種重要的生物分子信息。然而,蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的序列(這

10、是目前基本共認的假設(shè)),蛋白質(zhì)結(jié)構(gòu)的信息隱含在蛋白質(zhì)序列之中。作為信息的載體,DNA分子和蛋白質(zhì)分子都打上了進化的烙印。通過比較相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復制而產(chǎn)生的分子進化證據(jù)。比較來自于不同種屬的同源蛋白質(zhì),即直系同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測它們共同的祖先蛋白質(zhì)。 生物分子信息具體表現(xiàn)為DNA序列數(shù)據(jù)、蛋白質(zhì)序列數(shù)據(jù)、生物分子結(jié)構(gòu)數(shù)據(jù)、生物分子功能數(shù)據(jù)等。序列數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)是非常直觀的,但是功能數(shù)據(jù)卻是多變復雜的,如關(guān)于蛋白質(zhì)功能的定性描述、蛋白質(zhì)之間的相互作用描述、基因表達數(shù)據(jù)、代謝路徑、調(diào)控網(wǎng)絡(luò)等。在所有類型的數(shù)據(jù)中,序列是最

11、基本的數(shù)據(jù),而且也是目前最多的數(shù)據(jù)。對生物分子數(shù)據(jù)及其關(guān)系的概括見左下圖。遺傳信息從DNA序列向蛋白質(zhì)序列的傳遞是人類已經(jīng)基本了解的第一部遺傳密碼,然而蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)也存在著一定的對應(yīng)關(guān)系,蛋白質(zhì)序列決定蛋白質(zhì)結(jié)構(gòu),因此有人將從蛋白質(zhì)序列到蛋白質(zhì)結(jié)構(gòu)的關(guān)系稱為第二部遺傳密碼。第一部遺傳密碼已被破譯,但是,對于密碼究竟處于DNA序列的哪些區(qū)域還了解得不全面,對密碼的轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域的功能還知之甚少,對DNA遺傳語言還有待于進一步探索。對于第二部密碼,目前則只能用統(tǒng)計學的方法進行分析。無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。生物分

12、子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等待我們?nèi)ネ诰蚝屠?。與一般信息相比,生物分子信息具有明顯的特征。首先,生物分子信息數(shù)據(jù)量大,例如DNA序列以千兆堿基(Giga base,Gb)為單位。隨著信息處理技術(shù)進入現(xiàn)代生物學研究領(lǐng)域,隨著互聯(lián)網(wǎng)在全球的貫通,各種生物信息學數(shù)據(jù)庫迅速發(fā)展,生物分子數(shù)據(jù)積累速度成倍增長。其次,生物分子信息復雜,既有生物分子序列的信息,又有結(jié)構(gòu)和功能的信息,既有生命本質(zhì)信息,如基因,又有生命表象信息,如基因表達信息。生物分子信息另一個重要的特征是,生物分子信息之間存在著密切的聯(lián)系,例如,基因序列與蛋白質(zhì)序列之間的關(guān)系,生物分子序列與結(jié)構(gòu)之間的關(guān)系,結(jié)構(gòu)與功能之間的關(guān)系,

13、基因變異與疾病之間的關(guān)系。對于生物分子信息,靠人工難以完成數(shù)據(jù)處理和分析的任務(wù),更談不上發(fā)現(xiàn)隱藏在這些信息之中的內(nèi)在規(guī)律。同時,對于生物分子信息,僅靠某一學科的專家,也無法進行分析研究,因此,在生物信息學研究領(lǐng)域中,要求生物學家、數(shù)學家和計算機科學工作者協(xié)力合作,發(fā)展新的分子生物學計算理論和方法,運用先進的計算機技術(shù)收集、集成和分析處理生物信息。 生物信息學的研究目標和任務(wù) 揭示生物分子數(shù)據(jù)的內(nèi)涵是生物信息學的長遠目標。生物分子數(shù)據(jù)具有深刻的內(nèi)涵,數(shù)據(jù)之間存在著復雜的聯(lián)系,這些數(shù)據(jù)中蘊涵著豐富的生物學知識和生物學規(guī)律。生物信息學的發(fā)展將揭示生物分子信息的本質(zhì),使人類徹底了解、掌握遺傳信息的編碼

14、、傳遞及表達,從而加快人類了解自身的進程。 目前生物信息學的主要任務(wù)是研究生物分子數(shù)據(jù)的獲取、存貯和查詢,發(fā)展數(shù)據(jù)分析方法。主要包括三個方面。第一是收集和管理生物分子數(shù)據(jù),使得生物學研究人員能夠方便地使用這些數(shù)據(jù),并為信息分析和數(shù)據(jù)挖掘打下基礎(chǔ)。生物分子數(shù)據(jù)來自于生物學實驗,應(yīng)用信息學技術(shù)收集和管理這些數(shù)據(jù),將各種數(shù)據(jù)以一定的表示形式存放在計算機中,建立數(shù)據(jù)庫系統(tǒng),并提供數(shù)據(jù)查詢、搜索和數(shù)據(jù)通訊工具。 第二是進行數(shù)據(jù)處理和分析。通過數(shù)據(jù)分析,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,認識數(shù)據(jù)的本質(zhì),進而上升為生物學知識。并在此基礎(chǔ)上,解釋與生物分子信息復制、傳遞和表達有關(guān)的生物過程,解釋在生物過程中出現(xiàn)的信息變化與

15、疾病的關(guān)系,幫助發(fā)現(xiàn)新的藥物作用目標,設(shè)計新的藥物分子,為進一步的研究和應(yīng)用打下基礎(chǔ)。生物分子信息處理流程見圖1.2。目前生物信息學的主要研究對象是DNA和蛋白質(zhì)。在DNA分析方面,著重分析DNA序列中的基因信息及基因表達調(diào)控信息,分析基因表達數(shù)據(jù),分析基因之間的相互作用關(guān)系,比較不同種屬的基因組,研究基因組中非編碼區(qū)域的生物學功能。在蛋白質(zhì)分析方面,著重分析蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)及功能之間的關(guān)系,預測蛋白質(zhì)的結(jié)構(gòu)和功能,研究蛋白質(zhì)的進化關(guān)系。 生物信息學的研究第三個方面是開發(fā)分析工具和實用軟件,解決具體的問題,為具體的生物信息學應(yīng)用服務(wù),例如,開發(fā)生物分子序列比較工具、基因識別工具、生物分子

16、結(jié)構(gòu)預測工具、基因表達數(shù)據(jù)分析工具等。 隨著生物技術(shù)特別是分子生物學技術(shù)的發(fā)展,目前已經(jīng)積累了大量的生物信息學數(shù)據(jù),表1.1列出了目前已經(jīng)得到的各類數(shù)據(jù)量及生物信息學對各類數(shù)據(jù)處理的基本任務(wù)。生物分子數(shù)據(jù)類型的不斷增多及數(shù)據(jù)量的不斷膨脹促進了生物信息學的研究與應(yīng)用。生物信息學研究成果不斷涌現(xiàn),各種生物信息源如雨后春筍層出不窮,而各種生物信息分析算法和工具也日益更新。數(shù)據(jù)源 數(shù)據(jù)量 生物信息學任務(wù) DNA序列 3000萬條序列 400.0 億個堿基 分離編碼與非編碼區(qū)域 識別內(nèi)含子與外顯子 基因產(chǎn)物預測 基因功能注釋 基因調(diào)控信息分析 蛋白質(zhì)序列 100萬條序列 序列比較 多重序列比對 識別保守

17、的序列模式 進化分析 大分子結(jié)構(gòu) 2.5 萬個結(jié)構(gòu) 二級結(jié)構(gòu)、空間結(jié)構(gòu)預測 三維結(jié)構(gòu)比對 蛋白質(zhì)幾何學度量 表面和形態(tài)計算 分子間相互作用分析 分子模擬 基因組 1300個基因組 (其中大量是病毒和微生物基因組) 標注重復序列 基因結(jié)構(gòu)分析 系統(tǒng)發(fā)生分析 基因與疾病的連鎖分析 基因組比較 遺傳語言分析 基因表達 海量 基因表達模式相關(guān)分析 基因調(diào)控網(wǎng)絡(luò)分析 表達調(diào)控信息分析 掌握互聯(lián)網(wǎng)上各種生物信息學數(shù)據(jù)庫以及相關(guān)軟件的使用技術(shù)已成為生物學和醫(yī)學研究人員的迫切需要。尤其是分子生物學的三大核心數(shù)據(jù)庫GenBank核酸序列數(shù)據(jù)庫、SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫和PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫,不

18、僅是全世界分子生物學和醫(yī)學研究人員獲取生物分子的序列、結(jié)構(gòu)和其他信息的基本來源,而且是發(fā)表自己序列或結(jié)構(gòu)測定結(jié)果的重要媒體。圍繞這三大核心數(shù)據(jù)庫還有眾多面向各種特定應(yīng)用的衍生數(shù)據(jù)庫和分析軟件,這些數(shù)據(jù)庫分別從不同角度、以不同方式對各類生物信息學數(shù)據(jù)進行歸納、總結(jié)和注釋,而各種分析軟件為挖掘這些數(shù)據(jù)提供了有力的工具。 生物信息學的研究意義生物信息學研究是從理論上認識生物本質(zhì)的必要途徑,通過生物信息學研究和探索,可以更為全面和深刻地認識生物科學中的本質(zhì)問題,了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系?;蛐蛄械降鞍踪|(zhì)序列的三聯(lián)密碼關(guān)系是眾所周知的,也是非常簡單、非常確定的

19、,然而,基因調(diào)控序列與基因表達之間的關(guān)系、蛋白質(zhì)序列與蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系則是未知的,也一定是非常復雜的。破譯和闡明生物信息的本質(zhì)將使得人類對生物界的認識跨越一個新臺階。 生物信息學的出現(xiàn)將改變生物學的研究方式。傳統(tǒng)的生物學是一門實驗科學,傳統(tǒng)分子生物學實驗往往是集中精力研究一個基因、一條代謝路徑,手工分析完全能夠勝任。然而,隨著分子生物學技術(shù)的發(fā)展,已經(jīng)出現(xiàn)一些高通量的實驗方法,如基因芯片,利用基因芯片一次可以獲取上千個基因的表達數(shù)據(jù)。生物學已經(jīng)從一次只分析一個生物分子的時代跳躍到同時分析成千上萬個生物分子的時代。對于高通量的實驗結(jié)果,必須利用計算機進行自動分析。因而,在高通量實驗技術(shù)出現(xiàn)的

20、時代,生物信息學必然要介入生物學研究和實驗。再者,從生物分子數(shù)據(jù)本身來看,各種數(shù)據(jù)之間存在著密切的關(guān)系,如DNA序列與蛋白質(zhì)序列、基因突變與疾病等,這些聯(lián)系反映了生物學的規(guī)律。但是,這些關(guān)系可能是非常復雜的,是我們未知的,是簡單的多元統(tǒng)計方法難以分析的。對于這些復雜的關(guān)系,必須運用現(xiàn)代信息學的方法去分析,去研究。因而,隨著分子生物學研究的深入,必然需要生物信息學。另外,現(xiàn)在全世界每天都會產(chǎn)生大量的核酸和蛋白質(zhì)序列,不可能用實驗的方法去詳細研究每一條序列,必須首先進行信息處理和分析,去粗取精,去偽存真。通過預處理,發(fā)現(xiàn)有用的線索,在此基礎(chǔ)上進行有針對性、有明確目的的分子生物學實驗。因而,生物信息

21、學在指導實驗、精心設(shè)計實驗方面將會發(fā)揮重要的作用??茖W家預言:生物信息學將是21世紀生物學的核心。 生物信息學研究在醫(yī)學上也有重要的意義。通過生物信息學分析,可以了解基因與疾病的關(guān)系,了解疾病產(chǎn)生的機理,為疾病的診斷和治療提供依據(jù)。研究生物分子結(jié)構(gòu)與功能的關(guān)系將是研制新藥的基礎(chǔ),可以幫助確定新藥作用的目標和作用的方式,從而為設(shè)計新藥提供依據(jù)。揭示人類及重要動植物種類的基因的信息,繼而開展生物大分子結(jié)構(gòu)模擬和藥物設(shè)計,是當今國際上正在迅速發(fā)展的自然科學領(lǐng)域最重大的課題之一,這方面的研究不僅對認識生物的起源、對認識生物遺傳、發(fā)育與進化的本質(zhì)有重要意義,而且將為人類疾病的科學診斷和合理治療開辟全新的

22、途徑,還可為動植物的物種改良提供堅實的理論基礎(chǔ)。第二章生物信息學的生物學基礎(chǔ)2.1 細胞各種生物體之間存在著差異,這種差異是由基因組所決定的。盡管各種生物體的基因組不一樣,但是,所有的生物體都具有一種共同的成分細胞。細胞是組成生物體的基本單位,細胞活動是生物活動的基礎(chǔ),細胞是生物體的遺傳控制中心。無論是多么復雜的生物,一切生命活動都是發(fā)生在細胞中的,生命的各種活動,如生長、發(fā)育、遺傳等,都是在細胞基礎(chǔ)上實現(xiàn)的。根據(jù)細胞內(nèi)有無細胞核,可以將細胞分為兩類,一類是原核細胞,如細菌、藍藻的細胞。另一類是真核細胞,如酵母細胞。原核細胞比真核細胞小,沒有細胞核,結(jié)構(gòu)也簡單的多。核酸與蛋白質(zhì)是細胞內(nèi)重要的物

23、質(zhì)。核酸是細胞內(nèi)的遺傳物質(zhì),它們?yōu)榧毎械钠渌煞志幋a,編碼信息一般貯存在DNA長鏈上。對于真核生物,DNA主要聚集在染色質(zhì)上。有些病毒將遺傳物質(zhì)貯存在RNA上。蛋白質(zhì)是細胞生物功能的執(zhí)行者。作為酶,蛋白質(zhì)可以大大加快細胞內(nèi)各種化學反應(yīng)的速度。蛋白質(zhì)還有很多其他的功能,如蛋白質(zhì)可以進行細胞內(nèi)外物質(zhì)的運輸,蛋白質(zhì)在細胞內(nèi)可以充當結(jié)構(gòu)支撐物,蛋白質(zhì)也是免疫系統(tǒng)的關(guān)鍵。細胞與細胞以及細胞與外界環(huán)境不斷進行著物質(zhì)交換和信息傳遞,這些都依賴于存在于細胞表面的或跨膜的蛋白質(zhì)。這種物質(zhì)交換和信息傳遞的分子基礎(chǔ)在整個生命世界也是高度一致的。在后面一節(jié)中,我們將詳細介紹蛋白質(zhì)。下面簡述一個細胞的主要構(gòu)成部分。細

24、胞膜和細胞壁。細胞膜又稱質(zhì)膜,它是細胞的表面邊界,其主要構(gòu)成物質(zhì)是磷脂分子,而磷脂是一種雙親分子,其中擁有磷酸基團的一端親水,而擁有脂肪酸長鏈的另一端疏水。從結(jié)構(gòu)上看,細胞膜由雙層磷脂構(gòu)成,兩層磷脂分子都是疏水端向內(nèi),親水端向外。這樣可以保護水和其他物質(zhì),防止其流失。當然,細胞有特殊的通道與外界進行物質(zhì)交換。細胞膜最重要的特性之一是半透性,即有選擇地允許物質(zhì)通過擴散和主動運輸?shù)确绞匠鋈爰毎瑥亩WC細胞的正常代謝。細胞膜有許多功能,例如與外界進行物質(zhì)交換,接受外界傳導信號等。植物細胞在細胞膜之外還有細胞壁,它是無生命的結(jié)構(gòu),其組成成分是細胞分泌的產(chǎn)物,其功能是保護細胞。細胞核。細胞核是真核細胞

25、的特征,所有真核細胞都具有細胞核。細胞核包含以染色質(zhì)形式而存在的遺傳物質(zhì)。染色質(zhì)上有處于不同構(gòu)象的DNA長鏈,這些DNA長鏈被核蛋白所包裹。一層核膜包圍著細胞核,使之與細胞的其他部分分離。細胞核在細胞的代謝、生長和分化中起著重要的作用,它是細胞的控制中心。細胞核內(nèi)的核仁是隨細胞分裂周期性產(chǎn)生和消失的圓形小體,核仁的中心是核仁組織區(qū)的特定DNA片段,這是一些轉(zhuǎn)錄rRNA的基因。核仁實際上是rRNA合成、加工以及裝配成核糖體亞單位的場所。此外,細胞核內(nèi)還有核骨架和核液等。細胞質(zhì)和細胞器。在細胞膜與細胞核之間是透明、粘稠的胞質(zhì)膠狀聚集體。對于原核生物,細胞質(zhì)包含一個細胞的所有物質(zhì);對于真核生物,細胞

26、質(zhì)包含除細胞核之外的所有物質(zhì),包括各種細胞器。主要的細胞器有線粒體、葉綠體(植物細胞特有)、內(nèi)質(zhì)網(wǎng)、高爾基體以及溶酶體等,細胞質(zhì)還含有核糖體、細胞質(zhì)骨架、液泡等。線粒體是細胞中的能量加工廠,是細胞呼吸和能量代謝的中心,它含有細胞呼吸所需要的各種酶和電子傳遞載體,可以將各種養(yǎng)料的潛能轉(zhuǎn)化成細胞實現(xiàn)各種活動所需的能量。葉綠體是植物細胞特有的一種能量轉(zhuǎn)換器,它是進行光合作用的中心。內(nèi)質(zhì)網(wǎng)是細胞內(nèi)的一個復雜的膜系統(tǒng),具體說是由細胞內(nèi)囊腔和細管彼此相連所形成的管道系統(tǒng),它是蛋白質(zhì)和脂肪合成的場所。高爾基體是細胞內(nèi)物質(zhì)交換的中心,是細胞各種分泌物的最后加工和包裝的場所。溶酶體的功能是消化從細胞外吞入的顆粒

27、和細胞本身產(chǎn)生的碎渣,溶酶體內(nèi)含有許多水解酶,可催化蛋白質(zhì)、多糖、脂類以及DNA和RNA等大分子的降解。核糖體是由蛋白質(zhì)和RNA組成的復合物,它是蛋白質(zhì)分子的合成場所。真核生物細胞中普遍存在由蛋白質(zhì)纖維組成的三維網(wǎng)架結(jié)構(gòu),即由微管、微絲和中間纖維構(gòu)成的細胞質(zhì)骨架。微管與構(gòu)建細胞壁、細胞定形、細胞內(nèi)物質(zhì)運輸、信息傳遞及細胞的運動密切相關(guān),微絲與肌肉收縮、細胞變形、細胞質(zhì)流動等有關(guān),中間纖維可能與細胞核定位、信息傳遞以及mRNA 運輸有關(guān)。鞭毛和纖毛是細胞表面的附屬物質(zhì),它們的功能是促進細胞運動。(動、植物細胞模式圖)生物體是由一個或者多個細胞所組成的。微觀體積的綠藻、衣藻是單細胞的生物,單個細胞

28、含有生命活動所需要的全部物質(zhì)。與單細胞生物相比,多細胞生物的一個主要優(yōu)點是細胞類型的分化。分化的細胞具有各自特定的功能,執(zhí)行特定的任務(wù);而不同的細胞可以相互合作,完成單個細胞所不能完成的工作。特定功能的細胞聚集在一起,形成組織。人類有上皮組織、結(jié)締組織、肌肉組織、神經(jīng)組織等多種主要的組織類型。典型的脊椎動物有200多種分化的細胞。當一個細胞分化后,不能再轉(zhuǎn)變成其他類型的細胞。雖然各種細胞的功能不同,但是它們具有相同的遺傳物質(zhì)、相同的基因,不同的僅僅是基因的表達模式。一個細胞發(fā)展到一定時間就要分裂,變成兩個細胞。在有絲分裂中,每個子細胞都得到一套完整的與親細胞相同的遺傳物質(zhì)。在細胞真正分裂之前,

29、細胞核中的每一條染色體都復制為兩份。在細胞分裂過程中,這些復制的染色體彼此分開,并準確地分為完整的兩組染色體,分別進入兩個子細胞。細胞從一次分裂開始到下一次分裂開始所經(jīng)歷的全過程稱為一個細胞周期。一個細胞的有絲分裂周期包括有絲分裂期(M期)和分裂間期,而分裂間期又分為合成期(S期)以及合成期前后的兩個間期(G1期、G2期)。有絲分裂為單細胞生物提供了一種繁殖的機制,為多細胞生物提供了生長、發(fā)育的機制。另一種細胞分裂方式是減數(shù)分裂,它是生物體有性繁殖的基礎(chǔ)。二倍體生物的體細胞中含有兩套遺傳物質(zhì),其中一套來自于母體,另外一套來自于父體。在減數(shù)分裂過程中,細胞首先進行遺傳物質(zhì)的復制,然后進行兩次分裂

30、,產(chǎn)生4個新的細胞,即性細胞。每個性細胞中的遺傳物質(zhì)只有1套,故性細胞又被稱為配子。當不同類型的配子(如精細胞、卵細胞)結(jié)合以后,形成合子(二倍體細胞),即受精卵。受精卵是一個新生命的開始,從受精卵出發(fā),通過細胞反復不斷的有絲分裂和分化,逐步成長發(fā)育成新的個體。例如,人類的體細胞是二倍體,有46條(23對)染色體,其中44條(22對)為常染色體,另外兩條為性染色體。經(jīng)過減數(shù)分裂所產(chǎn)生的性細胞(精子和卵子)是單倍體,僅有23條染色體。當精子和卵子結(jié)合以后,形成二倍體的受精卵,孕育出一個新的生命。第六章系統(tǒng)發(fā)生分析 系統(tǒng)發(fā)生(或種系發(fā)生、系統(tǒng)發(fā)育,phylogeny)是指生物形成或進化的歷史。系統(tǒng)

31、發(fā)生學(phylogenetics)研究物種之間的進化關(guān)系,其基本思想是比較物種的特征,并認為特征相似的物種在遺傳學上接近。系統(tǒng)發(fā)生研究的結(jié)果往往以系統(tǒng)發(fā)生樹(phylogenetic tree)表示,用它描述物種之間的進化關(guān)系。通過對生物學數(shù)據(jù)的建模提取特征,進而比較這些特征,研究生物形成或進化的歷史。在分子水平上進行系統(tǒng)發(fā)生分析具有許多優(yōu)勢,所得到的結(jié)果更加科學、可靠。分子系統(tǒng)發(fā)生分析主要分成三個步驟:分子序列或特征數(shù)據(jù)的分析、系統(tǒng)發(fā)生樹的構(gòu)造以及結(jié)果的檢驗。6.1 分子系統(tǒng)發(fā)生與系統(tǒng)發(fā)生樹 分子系統(tǒng)發(fā)生分析 系統(tǒng)發(fā)生學是進化生物學的一個重要研究領(lǐng)域,系統(tǒng)發(fā)生分析早在達爾文時代就已經(jīng)開始。

32、從那時起,科學家們就開始尋找物種的源頭,分析物種之間的進化關(guān)系,給各個物種分門別類。經(jīng)典系統(tǒng)發(fā)生學研究所涉及的特征主要是生物表型(phenotype)特征,所謂的表型特征主要指形態(tài)學的(結(jié)構(gòu)的)特征,如生物體的大小、顏色、觸角個數(shù),也包括某些生理的、生化的以及行為習性的特征。通過表型比較來推斷生物體的基因型(genotype),研究物種之間的進化關(guān)系。但是,利用表型特征是有局限性的。有時候關(guān)系很遠的物種也能進化出相似的表型,這是由稱為趨同進化(convergent evolution)的過程造成的。例如,如果一個生物學家按照生物體是否有眼睛來構(gòu)建進化樹,那么他可能將人類、兩翼昆蟲和軟體動物放在

33、同一個進化組中,因為它們都有光探測器官。在這個例子中,很明顯這三種生物體并不具有密切的關(guān)系,在其它特征上有天壤之別,就是它們眼睛的構(gòu)造也大相徑庭。這說明表型有時候會誤導我們,表型相似并不總是反映基因相似。用表型來判定進化關(guān)系的另一個問題是,對于許多生物體很難檢測到可用來進行比較的表型特征。例如,即使用顯微鏡檢查,也難以發(fā)現(xiàn)細菌的明顯特性。當我們試圖比較關(guān)系較遠的生物體的時候,第三個問題又出現(xiàn)了,即什么樣的表型特征能用來比較呢?例如,分析細菌、蠕蟲和哺乳動物,它們之間的共同特征實在是少之又少。隨著人們對生物的認識從宏觀發(fā)展到微觀,科學家對物種分類的依據(jù)也從宏觀上的形態(tài)發(fā)展到了微觀上的分子,并且有

34、了突破性的進展,系統(tǒng)發(fā)生分析進入分子層次??茖W家認為,現(xiàn)今世界上存在的核酸和蛋白質(zhì)分子都是從共同的祖先經(jīng)過不斷的進化而形成的,作為生物遺傳物質(zhì)的核酸和作為生命機器的蛋白質(zhì)分子中存在著關(guān)于生物進化的信息,可用于系統(tǒng)發(fā)生關(guān)系的研究。在分子水平上進行分析具有許多表型分析所沒有的優(yōu)勢,所得到的結(jié)果更加科學、可靠。分子系統(tǒng)發(fā)生分析直接利用從核酸序列或蛋白質(zhì)分子提取的信息,作為物種的特征,通過比較生物分子序列,分析序列之間的關(guān)系,構(gòu)造系統(tǒng)發(fā)生樹,進而闡明各個物種的進化關(guān)系。當然,這些分子不僅在序列上保留進化的痕跡,它們的結(jié)構(gòu)也保留著進化的痕跡。在分子水平上研究生物之間的關(guān)系早在20世紀初就開始了??茖W家發(fā)

35、現(xiàn),當把一個生物體的血液注射到另一個測試生物體中時,產(chǎn)生免疫反應(yīng)的程度與這兩個生物體的進化關(guān)系直接相關(guān),由此最早正確地推斷出人和猿比它們和其它靈長類動物有更近的共同祖先。直到20世紀中期,分子數(shù)據(jù)才開始被廣泛應(yīng)用于系統(tǒng)發(fā)生研究。蛋白質(zhì)電泳使得我們可以在一些淺層特征上,如分子大小和電荷,來分離和比較相關(guān)的蛋白質(zhì)。20世紀60年代,蛋白質(zhì)測序成為可能;20世紀70年代,研究者開始能夠獲得基因組信息,特別是DNA序列。蛋白質(zhì)序列和DNA序列為分子系統(tǒng)發(fā)生分析提供了可靠的數(shù)據(jù)。 在現(xiàn)代分子進化研究中,根據(jù)現(xiàn)有生物基因或物種多樣性來重建生物的進化史是一個非常重要的問題。一個可靠的系統(tǒng)發(fā)生的推斷,將揭示出

36、有關(guān)生物進化過程的順序,有助于我們了解生物進化的歷史和進化機制。根據(jù)核酸和蛋白質(zhì)的序列信息,可以推斷物種之間的系統(tǒng)發(fā)生關(guān)系。其基本原理非常簡單,從一條序列轉(zhuǎn)變?yōu)榱硪粭l序列所需要的變換越多,那么,這兩條序列的相關(guān)性就越小,從共同祖先分歧的時間就越早,進化距離就越大;相反,兩個序列越相似,那么它們之間的進化距離就可能越小。為了便于分析,一般假設(shè)序列變化的速率相對恒定。關(guān)于地球上現(xiàn)代人起源的研究是一個典型而有趣的例子,科學家分析了取自世界不同地區(qū)許多人的線粒體DNA,分析結(jié)果表明,所有現(xiàn)代人都是一個非洲女性的后代。線粒體DNA非常適合于系統(tǒng)發(fā)生分析,因為線粒體DNA從母體完全傳到子代,不與父代DNA

37、重組。由于DNA 分子非常穩(wěn)定,所以我們既可以通過DNA 分析活著的生物,也可以分析死去的生物,甚至分析已經(jīng)絕種的生物。當然,用細胞核基因來研究系統(tǒng)發(fā)生關(guān)系時,遇到的一個嚴重的問題是,基因常常會被復制,導致在個體基因組中,一個基因可能有若干個拷貝。在進化過程中,這些拷貝各自演變,形成兩個或更多的相似基因。在對不同物種的基因進行比較時,如果選擇這類基因,其分析結(jié)果的可靠性將存在問題。所有的生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣地生長、分叉,以樹的形式來表示生物之間的進化關(guān)系是非常自然的事??梢杂脴渲械母鱾€分支點代表一類生物起源的相對時間,兩個分支點靠得越近,則對應(yīng)的兩群生物進化關(guān)

38、系越密切。系統(tǒng)發(fā)生分析一般是建立在分子鐘(molecular clock)基礎(chǔ)上的。生物隨著時間的推進而演化,進化的速率被視為進化研究中的基本問題之一。進化速率就是在某一段時間內(nèi)的遺傳改變量。分子進化速率相關(guān)的分子鐘的概念源于對蛋白質(zhì)序列的研究。在長期的進化過程中,有著相似功能約束的位點的分子進化速率則幾乎完全一致。20世紀60年代最早由Emile Zuckerkandl 和Linus Pauling所做的蛋白質(zhì)序列的比較研究表明,蛋白質(zhì)同系物的替換率就算過了千百萬年也能保持恒定,因此他們將氨基酸的變異積累比做分子鐘??茖W家們在比較幾種動物的血紅蛋白、細胞色素C的序列后注意到:這些蛋白質(zhì)的氨基

39、酸取代速率在不同的種系間大致相同,即分子水平的進化存在恒速現(xiàn)象。分子時鐘在不同的蛋白質(zhì)中運行的速率是不同的,但是,兩個蛋白質(zhì)同系物的差異始終和它們獨立分化的時間成正比。兩序列間穩(wěn)定的變異速率,不僅有助于確定物種間系統(tǒng)發(fā)生關(guān)系,而且能夠像利用放射性衰變考察地質(zhì)年代那樣,準確測定序列分化發(fā)展的時間。不同物種間的蛋白質(zhì)氨基酸序列差異隨著分歧時間的加大而增加,而DNA 序列也存在這種規(guī)律。Kimura進一步提出了具體的分子進化觀點:對于各物種的每個蛋白質(zhì),如果用每個位點每年發(fā)生的氨基酸替換次數(shù)作為衡量分子進化的速率,則該速率是大致恒定的;功能上次要的分子(或者分子部分)的進化速率比功能重要的分子(或者

40、分子部分)進化速率快;對現(xiàn)有分子結(jié)構(gòu)或者功能破壞小的氨基酸替換比破壞力大的氨基酸替換發(fā)生得更加頻繁。盡管以上的分析給我們帶來了很多希望,但是,Zuckerkandl 和Pauling的分子時鐘假說還是有爭議的。經(jīng)典進化學家們認為形態(tài)的進化不夠穩(wěn)定,這與分子以穩(wěn)定的速度變異不一致。關(guān)于分化時間也有不同意見,這些意見對這個假說的核心即進化率是穩(wěn)定的表示質(zhì)疑。 系統(tǒng)發(fā)生樹一般來說,系統(tǒng)發(fā)生樹是一種二叉樹。所謂樹,實際上是一個無向非循環(huán)圖。系統(tǒng)發(fā)生樹由一系列節(jié)點(nodes)和分支(branches )組成,其中每個節(jié)點代表一個分類單元(物種或序列),而節(jié)點之間的連線代表物種之間的進化關(guān)系。樹的節(jié)點又

41、分為外部節(jié)點(terminal node)和內(nèi)部節(jié)點(internal node)。在一般情況下,外部節(jié)點代表實際觀察到的分類單元,而內(nèi)部節(jié)點又稱為分支點,它代表了進化事件發(fā)生的位置,或代表分類單元進化歷程中的祖先。分類單元是一種由研究者選定的基本單位,在同一項研究中,分類單元一般應(yīng)當一致。在下面的討論中,我們基本上以序列(DNA序列或蛋白質(zhì)序列)作為分類單元。樹節(jié)點間的連線稱為分支,其中一端與葉節(jié)點相連的為外支,不與葉節(jié)點相連的為內(nèi)支。系統(tǒng)發(fā)生樹有許多形式:可能是有根樹(rooted tree),也可能是無根樹(unrooted tree);可能是一般的樹,也可能是二叉樹;可能是有權(quán)值的樹(

42、或標度樹,scaled tree,樹中標明分支的長度),也可能是無權(quán)值樹(或非標度樹,unscaled tree)。在一棵有根樹中,有一個唯一的根節(jié)點,代表所有其它節(jié)點的共同祖先,這樣的樹能夠反映進化層次,從根節(jié)點歷經(jīng)進化到任何其它節(jié)點只有唯一的路徑。系統(tǒng)發(fā)生分析中一個重要的差別是,有的能由系統(tǒng)發(fā)生樹推斷出共同祖先和進化方向,而有的卻不能。無根樹沒有層次結(jié)構(gòu),無根樹只說明了節(jié)點之間的關(guān)系,沒有關(guān)于進化發(fā)生方向的信息。但是,通過使用外部參考物種(那些明確地最早從被研究物種中分化出來的物種),可以在無根樹中指派根節(jié)點。例如,在研究人類和大猩猩時,可用狒狒作為外部參考物種,樹的根節(jié)點可以放在連接狒狒

43、與人和大猩猩共同祖先的分支上。二叉樹是一種特殊的樹,每個節(jié)點最多有兩個子節(jié)點。在有權(quán)值的樹中,分支的長度(或權(quán)值)一般與分類單元之間的變化成正比,它是關(guān)于生物進化時間或者遺傳距離的一種度量形式。一般假設(shè)存在一個分子鐘,進化的速率恒定。系統(tǒng)發(fā)生樹具有以下性質(zhì): (1)如果是一棵有根樹,則樹根代表在進化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元; (2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹; (3)從根節(jié)點出發(fā),到任何一個節(jié)點的路徑均指明進化時間或者進化距離。 圖6.1(a)所示的是一棵有根樹,而圖6.1(b)顯示的是一棵無根樹,圖中的A、B、C、D為所研究的分類單元。

44、 對于給定的分類單元數(shù),有很多棵可能的系統(tǒng)發(fā)生樹,但是只有一棵樹是正確的,分析的目標就是要尋找這棵正確的樹。 基于單個同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹稱為基因樹(gene tree),這比稱作物種樹(species tree)更為合理。因為這種樹代表的僅僅是單個基因的進化歷史,而不是它所在物種的進化歷史。物種樹一般最好是通過綜合多個基因數(shù)據(jù)的分析結(jié)果而產(chǎn)生。基因樹和物種樹之間的差異是很重要的,例如,假設(shè)只用HLA的等位基因來構(gòu)建物種樹,許多人將與大猩猩分在一起,而不是和其他人分在一起。 距離和特征用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類:(1)距離(distances)數(shù)據(jù),常用距離矩陣描述,表示兩個

45、數(shù)據(jù)集之間所有兩兩差異;(2)特征(characters)數(shù)據(jù),表示分子所具有的特征。分子系統(tǒng)發(fā)生分析的目的是探討物種之間的進化關(guān)系,其分析的對象往往是一組同源的序列。這些序列取自于不同生物基因組的共同位點。序列比對是進行同源分析的一種基本手段,是進行系統(tǒng)發(fā)生分析的基礎(chǔ),一般采用基于兩兩比對漸進的多重序列比對方法,如ClustalW程序。通過序列的比對,可以分析序列之間的差異,計算序列之間的距離。無論是DNA序列,還是蛋白質(zhì)序列,都是由特定字母表中的字符組成的。計算序列之間距離的一個前提條件是要有一個字符替換模型,替換模型影響序列多重比對的結(jié)果,影響系統(tǒng)發(fā)生樹的構(gòu)造結(jié)果。在具體的分析過程中,需

46、要選擇一個合理的字符替換模型,參見第3章的各種打分模型或代價、距離模型。距離(或者相似度)是反映序列之間關(guān)系的一種度量,是建立系統(tǒng)發(fā)生樹時所常用的一類數(shù)據(jù)。在計算距離之前,首先進行序列比對,然后累加每個比對位置的得分。可以應(yīng)用第3章介紹的關(guān)于序列比較方法,直接計算序列之間的距離。如果在進行序列比較時使用的是打分函數(shù)或相似性度量函數(shù),則需要將相似度(或者得分)轉(zhuǎn)換成距離。令S(i,j)是序列i和序列j各個比對位置得分的加權(quán)和,一種歸一化的距離計算公式為: 其中,Sr(i,j)是序列i和j隨機化之后的比對得分的加權(quán)和,Smax(i,j)是兩條序列所有可能的比對的最大值(當兩條序列相同時,取最大值)

47、。兩個序列歸一化距離的值處于0和1之間,當兩個序列完全一致時,距離為0;當兩個序列差異很大時,距離接近于1。如果在上式中令Sr(i,j)=0,則計算公式變?yōu)椋簽榱诉m合于處理相似性較小的序列,可以進一步修改距離計算公式:序列比對得分的加權(quán)和可以根據(jù)常用的打分矩陣獲得,如果待處理的序列是蛋白質(zhì),則用PAM矩陣、BLOSUM矩陣等;如果待處理的序列是DNA或者RNA,則用等價矩陣、核苷酸轉(zhuǎn)換-顛換矩陣或者其它具有非對稱置換頻率的矩陣。距離是系統(tǒng)發(fā)生分析時所使用的一類數(shù)據(jù),另一類數(shù)據(jù)就是所謂的離散特征數(shù)據(jù)。離散特征數(shù)據(jù)可分為二態(tài)特征與多態(tài)特征。二態(tài)的離散特征只有2種可能的狀況,即具有與不具有某種特征,

48、通常用“0”或“1”表示。例如,DNA序列上的某個位置如果是剪切位點,其特征值為1,否則為0。多態(tài)離散特征具有兩種以上可能的狀態(tài),如核酸的序列信息,對序列中某一位置來說,其可能的堿基有、共4種??梢詫⑻卣鲾?shù)據(jù)轉(zhuǎn)換為距離數(shù)據(jù)。如果建立所有可能狀態(tài)之間相似性的度量,特征數(shù)據(jù)就很容易被轉(zhuǎn)換成距離數(shù)據(jù)。 分子系統(tǒng)發(fā)生分析過程分子系統(tǒng)發(fā)生分析主要分成三個步驟:(1)分子序列或特征數(shù)據(jù)的分析;(2)系統(tǒng)發(fā)生樹的構(gòu)造;(3)結(jié)果的檢驗。其中,第一步的作用是通過分析,產(chǎn)生距離或特征數(shù)據(jù),為建立系統(tǒng)發(fā)生樹提供依據(jù)。系統(tǒng)發(fā)生樹的構(gòu)建方法很多種。根據(jù)所處理數(shù)據(jù)的類型,可以將系統(tǒng)發(fā)生樹的構(gòu)建方法大體上分為兩大類。一類

49、是基于距離的構(gòu)建方法,利用所有物種或分類單元間的進化距離,依據(jù)一定的原則及算法構(gòu)建系統(tǒng)發(fā)生樹?;舅悸肥橇谐鏊锌赡艿男蛄袑?,計算序列之間的遺傳距離,選出相似程度比較大或非常相關(guān)的序列對,利用遺傳距離預測進化關(guān)系。這類方法有非加權(quán)分組平均法(unweighted pair group method with arithmetic means)、鄰近歸并法(neighbor joining method)、Fitch-Margoliash法、最小進化方法(minimum evolution)等。另一類方法是基于離散特征的構(gòu)建方法,利用的是具有離散特征狀態(tài)的數(shù)據(jù),如DNA序列中的特定位點的核苷酸。

50、建樹時,著重分析分類單位或序列間每個特征(如核苷酸位點)的進化關(guān)系等。屬于這一類的方法有最大簡約法(maximum parsimony method)、最大似然法(maximum likelihood method)、進化簡約法(evolutionary parsimony method)、相容性方法(compatibility)等。對相似性和距離數(shù)據(jù),在重建系統(tǒng)發(fā)生樹時只能利用距離法。離散特征數(shù)據(jù)通過適當?shù)姆椒赊D(zhuǎn)換成距離數(shù)據(jù),因此,對于這類數(shù)據(jù)在重建系統(tǒng)發(fā)生樹時,既可以用距離法,亦可以采用離散特征法。根據(jù)建樹算法在執(zhí)行過程中采用的搜索方式,系統(tǒng)發(fā)生樹的構(gòu)建方法也可以分為三類。第一類是窮盡搜

51、索方法,即產(chǎn)生所有可能的樹,然后根據(jù)評價標準選擇一棵最優(yōu)的樹。需要注意的是,系統(tǒng)發(fā)生樹可能的個數(shù)隨序列的個數(shù)急劇增加。假設(shè)要為n個分類單元建立系統(tǒng)發(fā)生樹,則可能的有根樹個數(shù)(NR)和無根系統(tǒng)發(fā)生樹個數(shù)(NU)可用下面的算式計算得到:可以看到,隨著n的增加,可能的有根系統(tǒng)發(fā)生樹和無根系統(tǒng)發(fā)生樹的數(shù)目迅速增加。表6.1中列出了一些n值,以及對應(yīng)的有根樹和無根樹的數(shù)目。當n大于等于15時,可能的系統(tǒng)發(fā)生樹數(shù)目變得非常驚人,但是只有其中的一棵樹代表了待分析的基因或者物種之間的真實進化關(guān)系,我們的目的就是找出這棵反映真實進化關(guān)系的樹。 表6.1 對不同的n,可能的有根樹和無根樹數(shù)目 數(shù)據(jù)數(shù)目 有根樹數(shù)目

52、 無根樹數(shù)目 2 1 1 3 3 1 4 15 3 5 105 15 10 34,459,425 2,207,025 15 213,458,046,767,875 7,905,853,580,625 20 8,200,794,532,637,891,559,375 221,643,095,476,699,771,875 從計算量來看,窮盡搜索方法只能處理很少的分類單元。當分類單元個數(shù)n大于一定值(如15),幾乎不可能采用窮盡搜索的方式來求取最優(yōu)樹。第二類方法是分支約束方法,即根據(jù)一定的約束條件將搜索空間限制在一定范圍內(nèi),產(chǎn)生可能的樹,然后擇優(yōu)。這是人工智能技術(shù)中的一種空間搜索策略,這種搜索方式

53、不需要搜索整個樹空間,可大大提高搜索效率。第三類是啟發(fā)式或經(jīng)驗性方法,即根據(jù)先驗知識或一定的指導性規(guī)則壓縮搜索空間,提高計算速度。這種方法能夠處理大量的分類單元,雖然不能保證所構(gòu)建的樹是最優(yōu)的,但實際結(jié)果往往接近于最優(yōu)解。當待分析的對象個數(shù)比較多時,必須采用分支約束方法或者啟發(fā)式的方法。在構(gòu)造系統(tǒng)發(fā)生樹時需要考慮進化假設(shè)和進化模型。系統(tǒng)發(fā)生樹的類型可能是有根樹,這意味著其中的一個序列代表其他所有序列共同的祖先。另一方面,系統(tǒng)發(fā)生樹可能是無根樹,意味著沒有共同的祖先。一般認為序列是隨機進化的,序列中的所有位點的進化也是隨機的而且是獨立的。在進行具體的系統(tǒng)發(fā)生分析時,一般還要作一些假設(shè):序列必須是

54、正確無誤的,待分析的序列是同源的,所有的序列都起源于同一個祖先序列,并且它們不是共生同源(或平行進化)序列,在序列比對中,不同序列的同一個位點都是同源的。另外,當兩個物種在系統(tǒng)發(fā)生樹上分化后,各自獨立進化發(fā)展。對系統(tǒng)發(fā)生分析的樣本也有一定的要求,要求樣本足以反映感興趣的問題,樣本序列之間的差異包含了足以解決感興趣的問題的系統(tǒng)發(fā)生信息。通過某種算法構(gòu)造好一棵系統(tǒng)發(fā)生樹之后,需要對樹的合理性和可靠性進行分析。對于若干條序列,如果利用多種不同的分析方法進行系統(tǒng)發(fā)生分析,并且得到相似的進化關(guān)系,那么分析結(jié)果具有較高的可信度。附錄 常用基本詞匯表 HYPERLINK /chenyuan/xsun/bio

55、infomatics/web/Addendum.html l MarkA#MarkA A HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkB#MarkB B HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkC#MarkC C HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkD#MarkD D HYPERLINK /chenyuan/xsun/bioinfomati

56、cs/web/Addendum.html l MarkE#MarkE E HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkF#MarkF F HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkG#MarkG G HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkH#MarkH H HYPERLINK /chenyuan/xsun/bioinfomatics/web/A

57、ddendum.html l MarkI#MarkI I HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkJ#MarkJ J HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkK#MarkK K HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkL#MarkL L HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.

58、html l MarkM#MarkM M HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkN#MarkN N HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkO#MarkO O HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkP#MarkP P HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l M

59、arkQ#MarkQ Q HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkR#MarkR R HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkS#MarkS S HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkT#MarkT T HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkU#Mar

60、kU U HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkV#MarkV V HYPERLINK /chenyuan/xsun/bioinfomatics/web/Addendum.html l MarkW#MarkW WA 英 文 名 詞 中 文 名 詞 解 釋 A ( Adenine ) 腺嘌呤 作為堿基的兩種嘌呤中的一種。 active site 活化位點 蛋白質(zhì)三維表面催化作用發(fā)生的區(qū)域。alignment 比對 為了確定兩個同源核酸或蛋白質(zhì)序列的累計差異而進行的配對稱為比對。 alignment of al

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論