2023生物信息學(xué)簡(jiǎn)明教程_第1頁
2023生物信息學(xué)簡(jiǎn)明教程_第2頁
2023生物信息學(xué)簡(jiǎn)明教程_第3頁
2023生物信息學(xué)簡(jiǎn)明教程_第4頁
2023生物信息學(xué)簡(jiǎn)明教程_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)簡(jiǎn)明教程PAGEPAGE10第一章概論 3第二章生物信息數(shù)據(jù)庫與查詢 5基因和基因組數(shù)據(jù)庫 5Genbank 5EMBL核酸序列數(shù)據(jù)庫 7DDBJ數(shù)據(jù)庫 7GDB 7蛋白質(zhì)數(shù)據(jù)庫 8PIR和PSD 8SWISS-PROT 8PROSITE 9PDB 9SCOP 9COG 9功能數(shù)據(jù)庫 10KEGG 10DIP 10ASDB 10TRRD 11TRANSFAC 11其它數(shù)據(jù)庫資源 11DBCat 11PubMed 12第三章序列比對(duì)和數(shù)據(jù)庫搜索 12序列兩兩比對(duì) 12多序列比對(duì) 17第四章核酸與蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)分析 18針對(duì)核酸序列的預(yù)測(cè)方法 18重復(fù)序列分析 18數(shù)據(jù)庫搜索 19編碼區(qū)統(tǒng)計(jì)特性分析 19啟動(dòng)子分析 19內(nèi)含子/外顯子剪接位點(diǎn) 20翻譯起始位點(diǎn) 20翻譯終止信號(hào) 20其它綜合基因預(yù)測(cè)工具 20tRNA基因識(shí)別 21針對(duì)蛋白質(zhì)的預(yù)測(cè)方法 21從氨基酸組成辨識(shí)蛋白質(zhì) 21預(yù)測(cè)蛋白質(zhì)的物理性質(zhì) 22蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè) 22其它特殊局部結(jié)構(gòu) 23蛋白質(zhì)的三維結(jié)構(gòu) 24第五章分子進(jìn)化 24分子進(jìn)化鐘與中性理論 24進(jìn)化樹 27結(jié)構(gòu)進(jìn)化樹 30剛體結(jié)構(gòu)疊合比較 30多特征結(jié)構(gòu)比較 31相關(guān)軟件 31第六章基因組序列信息分析 32基因組序列分析工具 32Wisconsin軟件包(GCG) 32ACEDB 36其它工具 36人類和鼠類公共物理圖譜數(shù)據(jù)庫的使用 36物理圖譜的類型 36大型公用數(shù)據(jù)庫中的基因組圖譜 38鼠類圖譜來源 46全基因組比較 48SNP的發(fā)現(xiàn) 48第七章功能基因組相關(guān)信息分析 48大規(guī)?;虮磉_(dá)譜分析 49實(shí)驗(yàn)室信息管理系統(tǒng) 49基因表達(dá)公共數(shù)據(jù)庫 51大規(guī)模基因表達(dá)譜數(shù)據(jù)分析方法 53基因組水平蛋白質(zhì)功能綜合預(yù)測(cè) 55第一章 概論當(dāng)前人類基因組研究已進(jìn)入一個(gè)重要時(shí)期,2000年將獲得人類基因組的全部序列,這是基因組研究的轉(zhuǎn)折點(diǎn)和關(guān)鍵時(shí)刻,意味著人類基因組的研究將全面進(jìn)入信息提取和數(shù)據(jù)分析階段,即生物信息學(xué)發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達(dá)46億5千萬,DNA序列數(shù)目達(dá)到535萬;其中EST序列超過339萬條;UniGene的數(shù)目已達(dá)到7萬個(gè);已有25個(gè)模式生物的完整基因組被測(cè)序完成,另外的70個(gè)模式生物基因組正在測(cè)序當(dāng)中;到2000年1月28日為止,人類基因組已有16%的序列完成測(cè)定,另外37.7%的序列已經(jīng)初步完成;同時(shí)功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結(jié)構(gòu)、功能的相關(guān)信息是基因組研究取得成果的決定性步驟。生物信息學(xué)是在此背景下發(fā)展起來的綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法的嶄新交叉學(xué)科。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取、處理、存儲(chǔ)、分配和解釋?;蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷、治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示"基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律",解釋生命的遺傳語言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。近來的研究表明,基因組不僅是基因的簡(jiǎn)單排列,它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),解譯生命的遺傳語言的關(guān)鍵。目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個(gè)人類染色體全序列--第22號(hào)染色體的測(cè)序工作已經(jīng)在1999年12月完成,整個(gè)人類基因組計(jì)劃工作草圖將在最近完成。這無疑給基因組組織結(jié)構(gòu)和信息結(jié)構(gòu)的研究工作提供了大量的第一手材料,同時(shí)也為基因組研究取得突破性進(jìn)展提供了可能。人類對(duì)基因的認(rèn)識(shí),將從以往的對(duì)單個(gè)基因的了解,上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置、結(jié)構(gòu)和功能上的相互關(guān)系。從目前生物信息學(xué)的研究情況來看,國際上公認(rèn)的生物信息學(xué)的研究內(nèi)容,大致包括以下幾個(gè)方面:基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國際EST數(shù)據(jù)庫(dbEST)和各自實(shí)驗(yàn)室測(cè)定的相應(yīng)數(shù)據(jù),經(jīng)過大規(guī)模并行計(jì)算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點(diǎn);基因組中非編碼區(qū)的信息結(jié)構(gòu)分析,演化、基因組空間結(jié)構(gòu)與DNA折疊的關(guān)系以及基因組信息與生物進(jìn)化關(guān)系等生物學(xué)的重大問題。生物大分子結(jié)構(gòu)模擬和藥物設(shè)計(jì)。包括RNA(核糖核酸)的結(jié)構(gòu)模擬和反義RNA的分子設(shè)計(jì);蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計(jì);具有不同功能域的復(fù)設(shè)計(jì);基于DNA結(jié)構(gòu)的藥物設(shè)計(jì)等。應(yīng)用密碼學(xué)方法以及其他算法和分析技術(shù),用于解釋基因組的信息,探索DNA序列及其空間結(jié)構(gòu)信息的新表征;發(fā)展研究基因組完整信息結(jié)構(gòu)和信利用生物信息學(xué)方法進(jìn)行結(jié)構(gòu)功能預(yù)測(cè)要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結(jié)果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適,而對(duì)另一個(gè)則完全不對(duì)。因此,本章采用原理和實(shí)用方法并重的原則進(jìn)行介紹。因生物信息學(xué)覆蓋面廣,限于篇幅,本章并未將生物信息學(xué)的全部內(nèi)容詳細(xì)加以講述,僅針對(duì)與目前分子生物學(xué)實(shí)驗(yàn)數(shù)據(jù)分析密切相關(guān)的生物信息學(xué)策略及實(shí)用工具進(jìn)行扼要介紹,文中涉及問題的更詳細(xì)信息可參考相關(guān)網(wǎng)站。生物信息學(xué)是新興發(fā)展中的學(xué)科,該領(lǐng)域的研究日新月異,書中的描述可能滯后于生物信息學(xué)的最新發(fā)展為在所難免,作者期望本章的介紹對(duì)讀者的研究工作有所助益。第二章生物信息數(shù)據(jù)庫與查詢近年來大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息數(shù)據(jù)庫。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務(wù)。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡(luò)來訪問,或者通過網(wǎng)絡(luò)下載。一般而言,這些生物信息數(shù)據(jù)庫可以分為一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。一級(jí)數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋;二級(jí)數(shù)據(jù)庫是在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來,是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理。國際上著名的一級(jí)核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國際上二級(jí)生物學(xué)數(shù)據(jù)庫非常多,它們因針對(duì)不同的研究內(nèi)容和需要而各具特色,如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等。下面將順序簡(jiǎn)要介紹一些著名和有特色的生物信息數(shù)據(jù)庫。基因和基因組數(shù)據(jù)庫GenbankGenbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國國立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。它的數(shù)據(jù)直接來源于測(cè)序工作者提交的序列;由測(cè)序中心提交的大量EST序列和其它測(cè)序數(shù)據(jù);以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會(huì)與歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個(gè)數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達(dá)到460萬條,34億個(gè)堿基,而且數(shù)據(jù)增長的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),用戶可以從NCBI的主頁上找到這些服務(wù)。Genbank庫里的數(shù)據(jù)按來源于約55,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,以及序列本身。序列特征表里包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等。所有數(shù)據(jù)記錄被劃分在若干個(gè)文件里,如細(xì)菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個(gè)文件。Genbank數(shù)據(jù)檢索NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻(xiàn)數(shù)據(jù)。Entrez提供了方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實(shí)現(xiàn)復(fù)雜的檢索查詢工作。對(duì)于檢索獲得的記錄,用戶Entrez使用說明可以在該主頁上獲得。Genbank提交序列數(shù)據(jù)測(cè)序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個(gè)任務(wù)可以由基于Web界面的BankIt或獨(dú)立程序Sequin來完成。BankIt是一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會(huì)從電子郵件收到自動(dòng)生成的數(shù)據(jù)條目,Genbank的新序列編號(hào),以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨(dú)立測(cè)序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應(yīng)用BankIt提交。BankIt使用說明和對(duì)序列的要求可詳見其主頁面。大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復(fù)雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設(shè)計(jì)用于提交來自系統(tǒng)進(jìn)化、種群和突變研究的序列,可以加入比對(duì)的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運(yùn)行的Sequin程序都可以在/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。NCBI的網(wǎng)址是:。Entrez的網(wǎng)址是:/entrez/。BankIt的網(wǎng)址是:/BankIt。Sequin的相關(guān)網(wǎng)址是:/Sequin/。EMBL核酸序列數(shù)據(jù)庫EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個(gè)全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護(hù),查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。DDBJ數(shù)據(jù)庫日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)??梢允褂闷渲黜撋咸峁┑腟RS工具進(jìn)行數(shù)據(jù)檢索和序列分析??梢杂肧equin軟件向該數(shù)據(jù)庫提交序列。DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。GDB基因組數(shù)據(jù)庫(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimersPCR標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogeneticmarkers、易碎位點(diǎn)fragilesites、EST序列、綜合區(qū)域syndromicregions、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、contentcontig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對(duì)象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù),用戶可以搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:。GDB的國內(nèi)鏡像是:/gdb/。蛋白質(zhì)數(shù)據(jù)庫PIRPSDPIR國際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù)的國際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其中包括來自幾十個(gè)完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PSD的注釋中還包括對(duì)許多序列、結(jié)構(gòu)、基因組和文獻(xiàn)數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復(fù)合物、酶-底物相互作用、活化和調(diào)控級(jí)聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。PSD數(shù)據(jù)庫有幾個(gè)輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務(wù):基于文本的交互式檢索;標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。PIR和PSD的網(wǎng)址是:/。數(shù)據(jù)庫下載地址是:/pir/。SWISS-PROTSWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維中盡可能減少了冗余序列,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。SWISS-PROT只接受直接測(cè)序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。PROSITEPROSITE數(shù)據(jù)庫收集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列模式,并能根據(jù)這的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對(duì)構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關(guān)檢索服務(wù)。PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。PDB蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國Brookhaven國家實(shí)驗(yàn)室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認(rèn)后存檔而成。目前PDB數(shù)據(jù)庫的維護(hù)由結(jié)構(gòu)生物信息學(xué)研究合作組織(RCSB)負(fù)責(zé)。RCSB的主服務(wù)器和世界各地的鏡像服務(wù)器提供數(shù)據(jù)庫的檢索和下載服務(wù),以及關(guān)于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計(jì)算機(jī)上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:/pdb/。SCOP蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細(xì)描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系。分類基于若干層次:家族,描述相近的進(jìn)化關(guān)系;超家族,描述遠(yuǎn)源的進(jìn)化關(guān)系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關(guān)系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個(gè)大類。SCOP還提供一個(gè)非冗余的ASTRAIL序列庫,這個(gè)庫通常被用來評(píng)估各種序列比對(duì)算法。此外,SCOP還提供一個(gè)PDB-ISL中介序列庫,通過與這個(gè)庫中序列的兩兩比對(duì),可以找到與未知結(jié)構(gòu)序列遠(yuǎn)緣的已知結(jié)構(gòu)序列。SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。COG蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對(duì)細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個(gè)蛋白質(zhì)與所有COGs中的蛋白質(zhì)進(jìn)行比對(duì),并把它歸入適當(dāng)?shù)腃OG簇。COG庫提供了對(duì)COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務(wù),系統(tǒng)進(jìn)化模式的查詢服務(wù)等。COG庫的網(wǎng)址是:/COG。下載COG庫和COGNITOR程序在:/pub/COG。功能數(shù)據(jù)庫KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫?;蚪M信息存儲(chǔ)在GENES數(shù)據(jù)庫里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。KEGG的網(wǎng)址是:http://www.genome.ad.jp/kegg/。DIP相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)詢DIP數(shù)據(jù)庫。DIP的網(wǎng)址是:/。ASDB可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列,搜索相關(guān)可變剪接的序列,經(jīng)過序列比對(duì)、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務(wù)。ASDB的網(wǎng)址是:/asdb。TRRD轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎(chǔ)上構(gòu)建的。每一個(gè)TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、增強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控模式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的具體信息);TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對(duì)基因表達(dá)模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻(xiàn))。TRRD主頁提供了對(duì)這幾個(gè)數(shù)據(jù)表的檢索服務(wù)。TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。TRANSFACTRANSFAC數(shù)據(jù)庫是關(guān)于轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個(gè)與TRANSFAC密切相關(guān)的擴(kuò)展庫:PATHODB庫收集了可能導(dǎo)致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn);S/MARTDB收集了與染色體結(jié)構(gòu)變化相關(guān)的蛋白因子和位點(diǎn)的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號(hào)傳遞的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)狀況。TRANSFAC及其相關(guān)數(shù)據(jù)庫可以免費(fèi)下載,也可以通過Web進(jìn)行檢索和查詢。TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。其它數(shù)據(jù)庫資源DBCatDBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫的信息,并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類。包括DNA、RNA、蛋白質(zhì)、基因組、圖譜、蛋白質(zhì)結(jié)構(gòu)、文獻(xiàn)著作等基本類型。數(shù)據(jù)庫可以免費(fèi)下載或在網(wǎng)絡(luò)上檢索查詢。DBCat的網(wǎng)址是:biogen.fr/services/dbcat/。下載DBCat在:biogen.fr/pub/db/dbcat。PubMedPubMed是NCBI維護(hù)的文獻(xiàn)引用數(shù)據(jù)庫,提供對(duì)MEDLINE、Pre-MEDLINE等文獻(xiàn)數(shù)據(jù)庫的引用查詢和對(duì)大量網(wǎng)絡(luò)科學(xué)類電子期刊的鏈接。利用Entrez系統(tǒng)可以對(duì)PubMed進(jìn)行方便的查詢檢索。PubMed的網(wǎng)址是:/。除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學(xué)研究的各個(gè)層面和領(lǐng)域,由于篇幅所限無法一一詳述。國內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點(diǎn)和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學(xué)網(wǎng)絡(luò)組織EMBNet中國節(jié)點(diǎn)北京大學(xué)分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時(shí)國家級(jí)的生物信息學(xué)中心也在籌建之中。我們期待國內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動(dòng)我國生物信息學(xué)和整個(gè)生命科學(xué)的發(fā)展。清華大學(xué)生物信息學(xué)研究所網(wǎng)址:北京大學(xué)生物信息鏡像系統(tǒng)網(wǎng)址:第三章 序列比對(duì)和數(shù)據(jù)庫搜索比較是科學(xué)研究中最常見的方法,通過將研究對(duì)象相互比較來尋找對(duì)象可能具備的特性。在生物信息學(xué)研究中,比對(duì)是最常用和最經(jīng)典的研究手段。最常見的比對(duì)是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對(duì),通過比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對(duì)是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。比對(duì)還是數(shù)據(jù)庫搜索算法的基礎(chǔ),將查詢序列與整個(gè)數(shù)據(jù)庫]的所有序列進(jìn)行比對(duì),從數(shù)據(jù)庫中獲得與其最相似序列的已有的數(shù)據(jù),能最快速的獲得有關(guān)查詢序列的大量有價(jià)值的參考信息,對(duì)于進(jìn)一步分析其結(jié)構(gòu)和功能都會(huì)有很大的幫助。近年來隨著生物信息學(xué)數(shù)據(jù)大量積累和生物學(xué)知識(shí)的整理,通過比對(duì)方法可以有效地分析和預(yù)測(cè)一些新發(fā)現(xiàn)基因的功能。序列兩兩比對(duì)序列比對(duì)的理論基礎(chǔ)是進(jìn)化學(xué)說,如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。在殘基-殘基比對(duì)中,可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守,這些信息揭示了這些保守位點(diǎn)上的殘基對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能是至關(guān)重要的,例如它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,可能它們只是由于歷史的原因被保留下來,而不是由于進(jìn)化壓力而保留下來。因此,如果兩個(gè)序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過大量實(shí)驗(yàn)和序列比對(duì)的分析,一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。早期的序列比對(duì)是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部比對(duì)會(huì)更加合理。通常用打分矩陣描述序列兩兩比對(duì),兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說明兩個(gè)殘基越相似。因此,序列比對(duì)問題變成在矩陣?yán)飳ふ易罴驯葘?duì)路徑,目前最有效的方法是Needleman-Wunsch動(dòng)態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列比對(duì)的工具LALIGN,它能給出多個(gè)不相互交叉的最佳比對(duì)結(jié)果。在進(jìn)行序列兩兩比對(duì)時(shí),有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。粗糙的比對(duì)方法僅僅用相同/不同來描述兩個(gè)殘基的關(guān)系,顯然這種方法無法和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,但國際上常用的取代矩陣有PAM和BLOSUM等,它們來源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對(duì)于不同的對(duì)象可以采用不同的取代矩陣以獲得更多信息,例如對(duì)同源性較高的序列可以采用BLOSUM90矩陣,而對(duì)BLOSUM30矩陣??瘴涣P分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)對(duì)插入的第一個(gè)空位罰分,如10-15;另一個(gè)對(duì)空位的延伸罰分,如1-2。對(duì)于具體的比對(duì)問題,采用不同的罰分方法會(huì)取得不同的效果。對(duì)于比對(duì)計(jì)算產(chǎn)生的分值,到底多大才能說明兩個(gè)序列是同源的,對(duì)此有統(tǒng)計(jì)學(xué)方法加以說明,主要的思想是把具有相同長度的隨機(jī)序列進(jìn)行比對(duì),把分值與最初的比對(duì)分值相比,看看比對(duì)結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機(jī)比對(duì)分值不低于實(shí)際比對(duì)分值的概率。對(duì)于嚴(yán)格的比對(duì),必須E值低于一定閾值才能說明比對(duì)的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比對(duì)得分的可能。Genbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序列搜索服務(wù)都是以序列兩兩比對(duì)為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化,如最常見的FASTA工具和BLAST工具。FASTA是第一個(gè)被廣泛應(yīng)用的序列比對(duì)和搜索工具包,包含若干個(gè)獨(dú)立的程序。FASTA為了提供序列搜索的速度,會(huì)先建立序列片段的“字典”,查詢序列先會(huì)在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結(jié)果報(bào)告中會(huì)給出每個(gè)搜索到的序列與查詢序列的最佳比對(duì)結(jié)果,以及這個(gè)比對(duì)的統(tǒng)計(jì)學(xué)顯著性評(píng)估E值。FASTA工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。NCBI提供了基于Web的BLAST服務(wù),用戶可以把序列填入網(wǎng)頁上的表單里,選擇相應(yīng)的參數(shù)后提交到數(shù)據(jù)服務(wù)器上進(jìn)行搜索,從電子郵件中獲得序列搜索的結(jié)果。BLAST包含五個(gè)程序和若干個(gè)相應(yīng)的數(shù)據(jù)庫,分別針對(duì)不同的查詢序列和要搜索的數(shù)據(jù)庫類型。其中翻譯的核酸庫指搜索比對(duì)時(shí)會(huì)把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉(zhuǎn)換成蛋白質(zhì)序列。表1.BLAST程序:程序數(shù)據(jù)庫查詢簡(jiǎn)述blastpblastnblastxtblastntblastx蛋白質(zhì)核酸蛋白質(zhì)核苷酸(翻譯)核酸(翻譯)核酸(翻譯蛋白質(zhì)核酸(翻譯)可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列DNA序列和EST序列的分析適合分析EST序列表2.BLAST的蛋白質(zhì)數(shù)據(jù)庫:簡(jiǎn)述簡(jiǎn)述數(shù)據(jù)庫nrmonth匯集了SWISS-PROT,PIR,PRF以及從GenBank序列編碼區(qū)中得到的swissprot蛋白質(zhì)和PDB中擁有原子坐標(biāo)的蛋白質(zhì),并去除了冗余的序列pdbnr中過去30天內(nèi)的最新序列yeastSWISS-PROT數(shù)據(jù)庫E.coliPDB結(jié)構(gòu)數(shù)據(jù)庫中的蛋白質(zhì)序列Kabat酵母基因組中編碼的全部蛋白質(zhì)alu大腸桿菌基因組中編碼的全部蛋白質(zhì)Kabat的免疫學(xué)相關(guān)蛋白質(zhì)序列由REPBASE中的Alu重復(fù)序列翻譯而來,用來遮蔽查詢序列中的重復(fù)片段表3.BLAST的核酸數(shù)據(jù)庫:數(shù)據(jù)庫簡(jiǎn)述nr非冗余的GenBank+EMBL+DDBJ+PDB序列,除了EST、STS、GSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的Genbank+EMBL+DDBJ+PDB的EST部分非冗余的Genbank+EMBL+DDBJ+PDB的STS部分0,1,2階段的高產(chǎn)量基因組序列(3階段完成的HTG序列在nr庫里)monthdbestdbstshtgsyeastE.coli酵母的全基因組序列酵母的全基因組序列大腸桿菌的全基因組序列由三維結(jié)構(gòu)庫來的核酸序列Kabat的免疫學(xué)相關(guān)序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復(fù)序列翻譯而來,用來遮蔽查詢序列中的重復(fù)片段基因組勘測(cè)序列(GenomeSurveySequence)pdbkabatvectormitoalugssBLAST對(duì)序列格式的要求是常見的FASTA格式。FASTA格式第一行是描述行,第一個(gè)字符必須是“>”字符;隨后的行是序列本身,一般每行序列不要超過80個(gè)字符,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會(huì)全部轉(zhuǎn)換成大寫;單個(gè)“-”號(hào)代表不明長度的空位;在氨基酸序列里允許出現(xiàn)“U”和“*”號(hào);任何數(shù)字都應(yīng)該被去掉或換成字母(如,不明核酸用“N”,不明氨基酸用“X”)。此外,對(duì)于核酸序列,除了A、C、G、T、U分別代表各種核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(帶酮基);M代表A或C(帶氨基);S代表G或C(強(qiáng));W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一種。對(duì)于氨基酸序列,除了20種常見氨基酸的標(biāo)準(zhǔn)單字符標(biāo)識(shí)之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻譯結(jié)束標(biāo)志。BLAST的當(dāng)前版本是2.0,它的新發(fā)展是位點(diǎn)特異性反復(fù)BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜索數(shù)據(jù)庫,如此反復(fù)直至沒有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫,將獲得的序列通過多序列比對(duì)來構(gòu)建第一個(gè)profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白,甚至可以與一些結(jié)構(gòu)比對(duì)方法,如threading相媲美。PSI-BLAST服務(wù)可以在NCBI的BLAST主頁上找到,還可以從NCBI的FTP服務(wù)器上下載PSI-BLAST的獨(dú)立程序。NCBI的BLUST網(wǎng)址是:/BLAST/。下載BLUST的網(wǎng)址是:/blast/。下載FASTA的網(wǎng)址是:/pub/fasta/。多序列比對(duì)顧名思義,多序列比對(duì)就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比對(duì)的方法。目前對(duì)多序列比對(duì)的研究還在不斷前進(jìn)中,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比對(duì)的思想,在序列兩兩比對(duì)的基礎(chǔ)上逐步優(yōu)化多序列比對(duì)的結(jié)果。進(jìn)行多序列比對(duì)后可以對(duì)比對(duì)結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。目前使用最廣泛的多序列比對(duì)程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進(jìn)的比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。CLUSTALW的程序可以自由使用,在NCBI的FTP服務(wù)器上可以找到下載的軟件包。CLUSTALW程序用選項(xiàng)單逐步指導(dǎo)用戶進(jìn)行操作,用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務(wù),用戶可以把序列和各種要求通過表單提交到服務(wù)器上,服務(wù)器把計(jì)算的結(jié)果用Email返回用戶。CLUSTALW對(duì)輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用CLUSTALW得到的多序列比對(duì)結(jié)果中,所有序列排列在一起,并以特定的符號(hào)代表各個(gè)位點(diǎn)上殘基的保守性,“*”號(hào)表示保守性極高的殘基位點(diǎn);“.”號(hào)代表保守性略低的殘基位點(diǎn)。EBI的CLUSTALW網(wǎng)址是:http://www.ebi.ac.uk/clustalw/。下載CLUSTALW的網(wǎng)址是:ftp://ftp.ebi.ac.uk/pub/software/。第四章核酸與蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)分析人們獲得各種核酸和蛋白質(zhì)序列的目的是了解這個(gè)序列在生物體中充當(dāng)了怎樣的角色。例如,DNA序列中重復(fù)片段、編碼區(qū)、啟動(dòng)子、內(nèi)含子/外顯子、轉(zhuǎn)錄調(diào)控因子結(jié)合位點(diǎn)等信息;蛋白質(zhì)的分子量、等電點(diǎn)、二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、膜蛋白的跨膜區(qū)段、酶的活性位點(diǎn)、以及蛋白質(zhì)之間相互作用等結(jié)構(gòu)和功能信息。雖然用實(shí)驗(yàn)的方法是多年以來解決這類問題的主要途徑,但新的思路是利用已有的對(duì)生物大分子結(jié)構(gòu)和功能特性的認(rèn)識(shí),用生物信息學(xué)的方法通過計(jì)算機(jī)模擬和計(jì)算來“預(yù)測(cè)”出這些信息或提供與之相關(guān)的輔助信息。由于生物信息學(xué)的特點(diǎn),可以用較低的成本和較快的時(shí)間就能獲得可靠的結(jié)果。近10年來生物學(xué)序列信息的爆炸性增長大大促進(jìn)了各種序列分析和預(yù)測(cè)技術(shù)的發(fā)展,目前已經(jīng)可以用理論預(yù)測(cè)的方法獲得大量的結(jié)構(gòu)和功能信息。要注意的是,盡管各種預(yù)測(cè)方法都基于現(xiàn)有的生物學(xué)數(shù)據(jù)和已有的生物學(xué)知識(shí),但在不同模型或算法基礎(chǔ)上建立的不同分析程序有其一定的適用范圍和相應(yīng)的限制條件,因此最好對(duì)同一個(gè)生物學(xué)問題盡量多用幾種分析程序,綜合分析各種方法得到的結(jié)果和結(jié)果的可靠性。此外,生物信息學(xué)的分析只是為生物學(xué)研究提供參考,這些信息能提高研究的效率或提供研究的思路,但很多問題還需要通過實(shí)驗(yàn)的方法得到驗(yàn)證。針對(duì)核酸序列的預(yù)測(cè)方法針對(duì)核酸序列的預(yù)測(cè)就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過程。在此過程中,確認(rèn)一段DNA序列是一個(gè)基因需要有多個(gè)證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DNA片段的假想產(chǎn)物與某個(gè)已知的蛋白質(zhì)或其它基因的產(chǎn)物具有較高序列相似性的話,那么這個(gè)DNA片段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計(jì)上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其它的證據(jù)包括與“模板”序列的模式相匹配、簡(jiǎn)單序列模式如TATABox等相匹配等。一般而言,確定基因的位置和結(jié)構(gòu)需要多個(gè)方法綜合運(yùn)用,而且需要遵循一定的規(guī)則:對(duì)于真核生物序列,在進(jìn)行預(yù)測(cè)之前先要進(jìn)行重復(fù)序列分析,把重復(fù)序列標(biāo)記出來并除去;選用預(yù)測(cè)程序時(shí)要注意程序的物種特異性;要弄清程序適用的是基因組序列還是cDNA序列;很多程序?qū)π蛄虚L度也有要求,有的程序只適用于長序列,而對(duì)EST這類殘缺的序列則不適用。重復(fù)序列分析是涉及數(shù)據(jù)庫搜索的程序。常見的重復(fù)序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用這些程序,或者用Email來進(jìn)行。如果有大量序列需要處理,可以使用XBLAST程序,它可以從Internet上下載得到。XBLAST中以及包含了由程序作者收集整理的一些重復(fù)序列,此外還可以從Repbase中找到更多的重復(fù)序列。還可以把克隆載體也加入重復(fù)序列中,這樣就可以在處理重復(fù)序列時(shí)順便把克隆載體也一同除去。經(jīng)處理的序列中重復(fù)序列所在位置會(huì)一律由“X”代替。CENSOR和Repbase的網(wǎng)址是:/。CENSOR的Email服務(wù)地址是:censor@。RepeatMasker的網(wǎng)址是:/cgi-bin/RepeatMasker。下載XBLAST的網(wǎng)址是:/pub/jmc。下載Repbase的網(wǎng)址是:ftp://ncbi//repository/repbase/REF。數(shù)據(jù)庫搜索把未知核酸序列作為查詢序列,在數(shù)據(jù)庫里搜索與之相似的已有序列是序列分析預(yù)測(cè)的有效手段,在上一節(jié)中已經(jīng)專門介紹了序列比對(duì)和搜索的原理和技術(shù)。但值得注意的是,由相似性分析作出的結(jié)論可能導(dǎo)致錯(cuò)誤的流傳;有一定比例的序列很難在數(shù)據(jù)庫里找到合適的同源伙伴。對(duì)于EST序列而言,序列搜索將是非常有效的預(yù)測(cè)手段。編碼區(qū)統(tǒng)計(jì)特性分析統(tǒng)計(jì)獲得的經(jīng)驗(yàn)說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會(huì)以較高的頻率使用而另一些則較少出現(xiàn)。這樣就使得編碼區(qū)的序列呈現(xiàn)出可察覺的統(tǒng)計(jì)特異性,即所謂的“密碼子偏好性”。利用這一特性對(duì)未知序列進(jìn)行統(tǒng)計(jì)學(xué)分析可以發(fā)現(xiàn)編碼區(qū)的粗略位置。這一類技術(shù)包括:雙密碼子計(jì)數(shù)(統(tǒng)計(jì)連續(xù)兩個(gè)密碼子的出現(xiàn)頻率);核苷酸周期性分析(分析同一個(gè)核苷酸在3,6,9,...位置上周期性出現(xiàn)的規(guī)律);均一/復(fù)雜性分析(長同聚物的統(tǒng)計(jì)計(jì)數(shù));開放可讀框架分析等。合判別。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服務(wù)。GRAIL的網(wǎng)址是:/Grail-1.3/。啟動(dòng)子分析啟動(dòng)子是基因表達(dá)所必需的重要序列信號(hào),識(shí)別出啟動(dòng)子對(duì)于基因辨識(shí)十分重要。有一些程序根據(jù)實(shí)驗(yàn)獲得的轉(zhuǎn)錄因子結(jié)合特性來描述啟動(dòng)子的序列特征,并依次作為啟動(dòng)子預(yù)測(cè)的依據(jù),但實(shí)際的效果并不十分理想,遺漏和假陽性都比較嚴(yán)重??偟膩碚f,啟動(dòng)子仍是值得繼續(xù)研究探索的難題。內(nèi)含子/外顯子剪接位點(diǎn)剪接位點(diǎn)一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數(shù)據(jù)庫里的注釋非常不完整,因此很難評(píng)估剪接位點(diǎn)識(shí)別程序預(yù)測(cè)剪接位點(diǎn)的敏感性和精度。如果把剪接位點(diǎn)和兩側(cè)的編碼特性結(jié)合起來分析則有助于提供剪接位點(diǎn)的識(shí)別效果。常見的基因識(shí)別工具很多都包含了剪接位點(diǎn)識(shí)別功能,獨(dú)立的剪接位點(diǎn)識(shí)別工具有NetGene等。NetGene服務(wù)的Email地址是:netgene@cbs.dtu.dk。翻譯起始位點(diǎn)對(duì)于真核生物,如果已知轉(zhuǎn)錄起始點(diǎn),并且沒有內(nèi)含子打斷5'非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困難。這時(shí)由于多順反操縱子的存在,啟動(dòng)子定位不象在真核生物中起關(guān)鍵作用。對(duì)于原核生物,關(guān)鍵是核糖體結(jié)合點(diǎn)的定位,可以由多個(gè)程序提供解決方案,可以參考下面的綜述。Gelfand,M.S.(1995).PredictionoffunctioninDNAsequenceanalyis.J.Comput.Biol.2,87-115.翻譯終止信號(hào)PolyA和翻譯終止信號(hào)不象起始信號(hào)那么重要,但也可以輔助劃分基因的范圍。其它綜合基因預(yù)測(cè)工具除了上面提到的程序之外,還有許多用于基因預(yù)測(cè)的工具,它們大多把各個(gè)方面的分析綜合起來,對(duì)基因進(jìn)行整體的分析和預(yù)測(cè)。多種信息的綜合分析有助于提高預(yù)測(cè)的可靠性,但也有一些局限:物種適用范圍的局限;對(duì)多基因或部分基因,有的預(yù)測(cè)出的基因結(jié)構(gòu)不可靠;預(yù)測(cè)的精度對(duì)許多新發(fā)現(xiàn)基因比較低;對(duì)序列中的錯(cuò)誤很敏感;對(duì)可變剪接、重疊基因和啟動(dòng)子等復(fù)雜基因語法效果不佳。相對(duì)不錯(cuò)的工具有GENSCAN,可以通過Web頁面或Email獲得GENSCAN服務(wù)。GENSCAN的網(wǎng)址是:/GENSCAN.html。tRNA基因識(shí)別tRNA基因識(shí)別比編碼蛋白質(zhì)的基因識(shí)別簡(jiǎn)單,目前基本已經(jīng)解決了用理論方法預(yù)測(cè)tRNA基因的問題。tRNAscan-SE工具中綜合了多個(gè)識(shí)別和分析程序,通過分析啟動(dòng)子元件的保守序列模式、tRNA二級(jí)結(jié)構(gòu)的分析、轉(zhuǎn)錄控制元件分析和除去絕大多數(shù)假陽性的篩選過程,據(jù)稱能識(shí)別99%的真tRNA基因??梢栽赪eb上使用這個(gè)工具,也可以下載這個(gè)程序。tRNAscan-SE的網(wǎng)址是:/eddy/tRNAscan-SE/。針對(duì)蛋白質(zhì)的預(yù)測(cè)方法傳統(tǒng)的生物學(xué)認(rèn)為,蛋白質(zhì)的序列決定了它的三維結(jié)構(gòu),也就決定了它的功能。由于用X光晶體衍射和NMR核磁共振技術(shù)測(cè)定蛋白質(zhì)的三維結(jié)構(gòu),以及用生化方法研究蛋白質(zhì)的功能效率不高,無法適應(yīng)蛋白質(zhì)序列數(shù)量飛速增長的需要,因此近幾十年來許多科學(xué)家致力于研究用理論計(jì)算的方法預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)和功能,經(jīng)過多年努力取得了一定的成果。從氨基酸組成辨識(shí)蛋白質(zhì)根據(jù)組成蛋白質(zhì)的20種氨基酸的物理和化學(xué)性質(zhì)可以分析電泳等實(shí)驗(yàn)中的未知蛋白質(zhì),也可以分析已知蛋白質(zhì)的物化性質(zhì)。ExPASy工具包中提供了一系列相應(yīng)程序:AACompIdent:根據(jù)氨基酸組成辨識(shí)蛋白質(zhì)。這個(gè)程序需要的信息包括:氨基酸組成、蛋白質(zhì)的名稱(在結(jié)果中有用)、pI和Mw(如果已知)以及它們的估算誤差、所屬物種或物種種類或“全部(ALL)”、標(biāo)準(zhǔn)蛋白的氨基酸組成、標(biāo)準(zhǔn)蛋白的SWISS-PROT編號(hào)、用戶的Email地址等,其中一些信息可以沒有。這個(gè)程序在SWISS-PROT和(或)TrEMBL數(shù)據(jù)庫中搜索組成相似蛋白。AACompSim:與前者類似,但比較在SWISS-PROT條目之間進(jìn)行。這個(gè)程序可以用于發(fā)現(xiàn)蛋白質(zhì)之間較弱的相似關(guān)系。除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸組成的蛋白質(zhì)辨識(shí)功能。程序作者用144種不同的物化性質(zhì)來分析蛋白質(zhì),包括分子量、巨大殘基的含量、平均疏水性、平均電荷等,把查詢序列的這些屬性構(gòu)成的查詢向量”與SWISS-PROT和PIR中預(yù)先計(jì)算好的各個(gè)已知蛋白質(zhì)的屬性向量進(jìn)行比較。這個(gè)工具能有效的發(fā)現(xiàn)同一蛋白質(zhì)家族的成員。可以通過Web使用這個(gè)工具,用戶只需輸入查詢序列本身。ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。PROSEARCH的網(wǎng)址是:http://www.embl-heidelberg.de/prs.html。預(yù)測(cè)蛋白質(zhì)的物理性質(zhì)從蛋白質(zhì)序列出發(fā),可以預(yù)測(cè)出蛋白質(zhì)的許多物理性質(zhì),包括等電點(diǎn)、分子量、酶切特性、疏水性、電荷分布等。相關(guān)工具有:ComputepI/MW:是ExPASy工具包中的程序,計(jì)算蛋白質(zhì)的等電點(diǎn)和分子量。對(duì)于堿性蛋白質(zhì),計(jì)算出的等電點(diǎn)可能不準(zhǔn)確。PeptideMass:是ExPASy工具包中的程序,分析蛋白質(zhì)在各種蛋白酶和化學(xué)試劑處理后的內(nèi)切產(chǎn)物。蛋白酶和化學(xué)試劑包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。TGREASE:是FASTA工具包中的程序,分析蛋白質(zhì)序列的疏水性。這個(gè)程序延序列計(jì)算每個(gè)殘基位點(diǎn)的移動(dòng)平均疏水性,并給出疏水性-序列曲線,用這個(gè)程序可以發(fā)現(xiàn)膜蛋白的跨膜區(qū)和高疏水性區(qū)的明顯相關(guān)性。SAPS:蛋白質(zhì)序列統(tǒng)計(jì)分析,對(duì)提交的序列給出大量全面的分析數(shù)據(jù),包括氨基酸組成統(tǒng)計(jì)、電荷分布分析、電荷聚集區(qū)域、高度疏水區(qū)域、跨膜區(qū)段等等。ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。下載FASTA的網(wǎng)址是:/pub/fasta/。SAPS的網(wǎng)址是:http://www.isrec.isb-sib.ch/software/SAPS_form.html。蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)二級(jí)結(jié)構(gòu)是指α螺旋和β折疊等規(guī)則的蛋白質(zhì)局部結(jié)構(gòu)元件。不同的氨基酸殘基對(duì)于形成不同的二級(jí)結(jié)構(gòu)元件具有不同的傾向性。按蛋白質(zhì)中二級(jí)結(jié)構(gòu)的成分可以把球形蛋白分為全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四個(gè)折疊類型。預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的算法大多以已知三維結(jié)構(gòu)和二級(jí)結(jié)構(gòu)的蛋白質(zhì)為依據(jù),用過人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)構(gòu)建預(yù)測(cè)方法。還有將多種預(yù)測(cè)方法結(jié)合起來,獲得“一致序列”??偟膩碚f,二級(jí)結(jié)構(gòu)預(yù)測(cè)仍是未能完全解決的問題,一般對(duì)于α螺旋預(yù)測(cè)精度較好,對(duì)β折疊差些,而對(duì)除α螺旋和β折疊等之外的無規(guī)則二級(jí)結(jié)構(gòu)則效果很差。nnPredict:用神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)二級(jí)結(jié)構(gòu),蛋白質(zhì)結(jié)構(gòu)類型分為全α蛋白、全β蛋白和α/β蛋白,輸出結(jié)果包括“H”(螺旋)、“E”(折疊)和“-”(轉(zhuǎn)角)。這個(gè)方法對(duì)全α79%的準(zhǔn)確率。PredictProtein:提供了序列搜索和結(jié)構(gòu)預(yù)測(cè)服務(wù)。它先在SWISS-PROT中搜索相似序列,用MaxHom算法構(gòu)建多序列比對(duì)的profile,再在數(shù)據(jù)庫中搜索相似的profile,然后用一套PHD程序來預(yù)測(cè)相應(yīng)的結(jié)構(gòu)特征,包括二級(jí)結(jié)構(gòu)。返回的結(jié)果包含大量預(yù)測(cè)過程中產(chǎn)生的信息,還包含每個(gè)殘基位點(diǎn)的預(yù)測(cè)可信度。這個(gè)方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到72%。SOPMA:帶比對(duì)的自優(yōu)化預(yù)測(cè)方法,將幾種獨(dú)立二級(jí)結(jié)構(gòu)預(yù)測(cè)方法匯集成“一致預(yù)測(cè)結(jié)果”,采用的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法包括GOR方法、Levin同源預(yù)測(cè)方法、雙重預(yù)測(cè)方法、PHD方法和SOPMA方法。多種方法的綜合應(yīng)用平均效果比單個(gè)方法更好。nnPredict的網(wǎng)址是:/~nomi/nnpredict.html。PredictProtein的網(wǎng)址是:/predictprotein/。PredictProtein的國內(nèi)鏡像在:/predictprotein/。SOPMA的網(wǎng)址是:http://pbil.ibcp.fr/。其它特殊局部結(jié)構(gòu)其它特殊局部結(jié)構(gòu)包括膜蛋白的跨膜螺旋、信號(hào)肽、卷曲螺旋(CoiledCoils)等,具有明顯的序列特征和結(jié)構(gòu)特征,也可以用計(jì)算方法加以預(yù)測(cè)。COILS:卷曲螺旋預(yù)測(cè)方法,將序列與已知的平行雙鏈卷曲螺旋數(shù)據(jù)庫進(jìn)行比較,得到相似性得分,并據(jù)此算出序列形成卷曲螺旋的概率。TMpred:預(yù)測(cè)蛋白質(zhì)的跨膜區(qū)段和在膜上的取向,它根據(jù)來自SWISS-PROT的跨膜蛋白數(shù)據(jù)庫Tmbase,利用跨膜結(jié)構(gòu)區(qū)段的數(shù)量、位置以及側(cè)翼信息,通過加權(quán)打分進(jìn)行預(yù)測(cè)。SignalP:預(yù)測(cè)蛋白質(zhì)序列中信號(hào)肽的剪切位點(diǎn)。COILS的網(wǎng)址是:/software/COILS_form.html。TMpred的網(wǎng)址是:/software/TMPRED_form.html。SignalP的網(wǎng)址是:http://www.cbs.dtu.dk/services/SignalP/。蛋白質(zhì)的三維結(jié)構(gòu)蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)時(shí)最復(fù)雜和最困難的預(yù)測(cè)技術(shù)。研究發(fā)現(xiàn),序列差異較大的蛋白質(zhì)序列也可能折疊成類似的三維構(gòu)象,自然界里的蛋白質(zhì)結(jié)構(gòu)骨架的多樣性遠(yuǎn)少于蛋白質(zhì)序列的多樣性。由于蛋白質(zhì)的折疊過程仍然不十分明了,從理論上解決蛋白質(zhì)折疊的問題還有待進(jìn)一步的科學(xué)發(fā)展,但也有了一些有一定作用的三維結(jié)構(gòu)預(yù)測(cè)方法。最常見的是“同源模建”和“Threading”方法。前者先在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中尋找未知結(jié)構(gòu)蛋白的同源伙伴,再利用一定計(jì)算方法把同源蛋白的結(jié)構(gòu)優(yōu)化構(gòu)建出預(yù)測(cè)的結(jié)果。后者將序列“穿”入已知的各種蛋白質(zhì)的折疊子骨架內(nèi),計(jì)算出未知結(jié)構(gòu)序列折疊成各種已知折疊子的可能性,由此為預(yù)測(cè)序列分配最合適的折疊子結(jié)構(gòu)。除了“Threading”方法之外,用PSI-BLAST方法也可以把查詢序列分配到合適的蛋白質(zhì)折疊家族,實(shí)際應(yīng)用中發(fā)現(xiàn)這個(gè)方法的效果也不錯(cuò)。SWISS-MODEL:自動(dòng)蛋白質(zhì)同源模建服務(wù)器,有兩個(gè)工作模式:第一步模式(FirstApproachmode)和優(yōu)化模式(Optimisemode)。程序先把提交的序列在ExPdb晶體圖像數(shù)據(jù)庫中搜索相似性足夠高的同源序列,建立最初的原子模型,再對(duì)這個(gè)模型進(jìn)行優(yōu)化產(chǎn)生預(yù)測(cè)的結(jié)構(gòu)模型。CPHmodels:也是利用神經(jīng)網(wǎng)絡(luò)進(jìn)行同源模建預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法。SWISS-MODEL的網(wǎng)址是:http://www.expasy.ch/swissmod/SWISS-MODEL.html。CPHmodels的網(wǎng)址是:http://www.cbs.dtu.dk/services/CPHmodels/。第五章 分子進(jìn)化分子進(jìn)化鐘的發(fā)現(xiàn)與中性理論的提出,極大地推動(dòng)了進(jìn)化尤其是分子進(jìn)化研究,填補(bǔ)了人們對(duì)分子進(jìn)化即微觀進(jìn)化認(rèn)識(shí)上的空白,推動(dòng)進(jìn)化論的研究進(jìn)入分子水平,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。分子進(jìn)化研究有助于進(jìn)一步闡明物種進(jìn)化的分子基礎(chǔ),探索基因起源機(jī)制,從基因進(jìn)化的角度研究基因序列與功能的關(guān)系。分子進(jìn)化鐘與中性理論60年代早期“分子進(jìn)化鐘”的發(fā)現(xiàn)與60年代末期“中性理論”的提出是本世紀(jì)進(jìn)化學(xué)的重大事件,是古老的進(jìn)化學(xué)與新生的分子生物學(xué)兩者“雜交”的產(chǎn)物。它們的相繼問世極大地推動(dòng)了進(jìn)化尤其是分子進(jìn)化研究,填補(bǔ)了人們對(duì)分子進(jìn)化即微觀進(jìn)化認(rèn)識(shí)上的空白,并在生物醫(yī)學(xué)等領(lǐng)域產(chǎn)生了廣泛影響。隨著不同生物來源的大量蛋白質(zhì)序列的確定,Zucherkandl等發(fā)現(xiàn):某一蛋白在不同物種間的取代數(shù)與所研究物種間的分歧時(shí)間接近正線性關(guān)系,進(jìn)而將分子水平的這種恒速變異稱為“分子鐘”。支持進(jìn)化鐘存在的證據(jù)來自哺乳動(dòng)物與其它脊椎動(dòng)物諸如血清白蛋與轉(zhuǎn)鐵蛋白等的免疫學(xué)(如微量補(bǔ)體固定)定量比較。人們發(fā)現(xiàn)多肽間的免疫距離(如抗原性)與其氨基酸取代百分?jǐn)?shù)成良好的線性相關(guān),如鳥溶菌酶、哺乳動(dòng)物RNase、細(xì)胞色素C與白蛋白、大腸桿菌色氨酸合成酶等。雖然這種相關(guān)性的分子基礎(chǔ)尚不清楚,但這種客觀存在經(jīng)過反復(fù)驗(yàn)證后是不容置疑的。免抗血清由此成為初步估算球形單體蛋白間序列差異的有效工具,但其適用范圍0-30%的氨基酸差異。自從進(jìn)化鐘假設(shè)提出之后,存在許多反駁它的相反事實(shí)與異議。這些異議主要針對(duì)序列進(jìn)化的恒速。分子進(jìn)化鐘的最明顯的例外之一是分子序列證據(jù)與化石證據(jù)在人類起源時(shí)間上的差異。60年代中期,許多人類學(xué)家認(rèn)為人類在3000年前與我們最近的親屬--非洲猿分歧。根據(jù)分子鐘假設(shè),分歧3000萬年的物種氨基酸序列差異的應(yīng)達(dá)4-5%、非重復(fù)序列DNA差異應(yīng)約為8%,但實(shí)測(cè)值分別為0.8%與1.1%。對(duì)這種6倍左右的差別有兩種解釋。許多人類學(xué)家傾向于懷疑鐘的存在,并認(rèn)為在高等靈長類中分子進(jìn)化速率下降。總之,雖然大部分分子進(jìn)化學(xué)家同意序列進(jìn)化與分歧時(shí)間密相關(guān),但進(jìn)化是以年限還是以代限為刻度則仍有分歧與爭(zhēng)議;而且因?yàn)榭v多因素的影響,與進(jìn)化鐘相左的數(shù)據(jù),無論是用氨基酸、核苷酸序列差異、免疫學(xué)距離,還是用DNA雜交復(fù)性等參數(shù),均不斷有所報(bào)道,其論爭(zhēng)預(yù)計(jì)將繼續(xù)下去。.自從60年代初發(fā)現(xiàn)分子進(jìn)化鐘--“分子進(jìn)化速率在不同種系中恒定”以來,人們又陸續(xù)發(fā)現(xiàn)蛋白質(zhì)中氨基酸的置換是隨機(jī)而非模式性的;DNA在哺乳動(dòng)物種系的總變異速率遠(yuǎn)遠(yuǎn)高于形態(tài)上的變異速率并遠(yuǎn)遠(yuǎn)超出人們的預(yù)期的大于0.5核苷酸/基因組/年;蛋白質(zhì)電泳表明物種內(nèi)存在大量的變異即廣泛的種內(nèi)多態(tài)性,且這些多面對(duì)上述問題,日本群體遺傳學(xué)家木村資生(MotooKimura)提出:(1)進(jìn)化過程中的核苷酸置換其絕大部分是中性或近似中性的突變隨機(jī)固定的結(jié)果而不是正向達(dá)爾文選擇的結(jié)果:(2)許多蛋白質(zhì)多態(tài)性必須在選擇上為中性或近中性,并在群體中由突變引入與隨機(jī)滅絕間兩者的平衡維持。上述論著問世遭遇到經(jīng)典進(jìn)化學(xué)家的強(qiáng)烈批判。他們認(rèn)為新的分子生物學(xué)數(shù)據(jù)完全可以用新達(dá)爾文主義的原理來解釋。直至現(xiàn)在,選擇論者與中性論者的議爭(zhēng)仍在繼續(xù)。這兩大學(xué)派的本質(zhì)區(qū)別可通過它們各自對(duì)突變基因如何在物種內(nèi)置換老基因這一進(jìn)化過程的不同解釋來洞悉。每一置換剛出現(xiàn)時(shí)在群體內(nèi)均為稀有的突變等位基因,隨后擴(kuò)散至個(gè)群體并被固定,即頻率達(dá)100%。選擇論者認(rèn)為:一個(gè)突變的等位基因在物種內(nèi)擴(kuò)散,就必需具有某些選擇上的優(yōu)勢(shì),如在選擇上為中性,就必需與一選擇上具優(yōu)勢(shì)的基因緊密連鎖,通過“搭車”而達(dá)到較高頻率。與此相反,中性突變體在選擇上等同于已存在的等位基因,其命運(yùn)將取決于機(jī)會(huì)-隨機(jī),其頻率存(如百萬年)一直延(它近似等于每)。中性理論并非認(rèn)為中性基自Zuckerkandl與Pauling的早期工作以來,已經(jīng)知道在蛋白質(zhì)進(jìn)化中結(jié)構(gòu)和化學(xué)性質(zhì)上相似的氨基酸間的替換比不相似間的替換更為頻繁。他們認(rèn)為,這種“保守的”的替換看來只造成分子功能的微小改變,因而更容易“被自然選擇接受”。同時(shí)他們指出,關(guān)于氨基酸殘基的最重要性質(zhì)是什么,“化學(xué)家和生物學(xué)家間顯然沒有同樣的見解”。從中性學(xué)說的立場(chǎng)看,保守替換的性質(zhì),只需注意到兩種氨基酸間的差異越小,它們等于選擇等價(jià)而不是突變有害的概率就越大,就很容易加以解釋。因此,選擇上呈中性的替換在得類似的氨基酸間則概率越高,而這類氨基酸的進(jìn)化替換由于隨機(jī)遺傳漂變則出現(xiàn)得更為頻繁。在闡明分子進(jìn)化中突變型替換的保守性的同時(shí),有越來越多的證據(jù)表明,功能上較不重要的分子或某一分子較不重要的部分,其進(jìn)化(以突變型替換表示)比那些較重要的要快些。中性論和選擇論間的差別,在它們對(duì)快速進(jìn)化的分子(如血纖蛋白肽)或分子的某部分(如胰島素原的C肽)進(jìn)行解釋時(shí),可以最清楚地看出,按中性學(xué)說解釋,它們?cè)诠δ苌喜恢匾?,因而大多?shù)突變是中性的,突變通過隨機(jī)漂變而迅速積累。另一方,選擇論的解釋是,快速進(jìn)化的分子或分子的某部分或許有某些尚不知道的功能,并且通過積累許多由正達(dá)爾文選擇產(chǎn)生的較微有利的突變,而經(jīng)歷了迅速的適應(yīng)性方面的改善。這兩種解釋那一種更為恰當(dāng)還有待積累更多數(shù)據(jù)以后才能判定。為了加深我們對(duì)分子進(jìn)化機(jī)制的理解,很有必要研究突變型替換的模式與分子的三級(jí)結(jié)構(gòu)和功能的相互關(guān)系。綜上,中性學(xué)說(或者更確切地說是中性突變-隨機(jī)漂變假說)是分子生物學(xué)與群體遺傳學(xué)交融的產(chǎn)物。它不象傳統(tǒng)的綜合理論(或新達(dá)爾文派的觀點(diǎn)),它明確主張:進(jìn)化中大多數(shù)突變型的置換,不是由于正達(dá)爾文選擇,而是由選擇上呈中性或近中性的突變型的隨機(jī)固定所致。它還斷言,分子水平上大多數(shù)種內(nèi)遺傳多態(tài)性,象以蛋白質(zhì)多態(tài)性形式展現(xiàn)出來的那樣,是選擇上呈中性或近中性的,并靠著突變輸入和等位基因的隨機(jī)清除或固定這兩者之間的平衡而在物種中維持。應(yīng)該說,這一理論對(duì)于人們所認(rèn)識(shí)的分子進(jìn)化眾多現(xiàn)象與規(guī)律的闡釋比新達(dá)爾文更為科學(xué),且提出的多項(xiàng)預(yù)測(cè)被隨后的實(shí)驗(yàn)研究所證實(shí)。問題是,它作為一種更基本層次-分子水平的進(jìn)化理論未能給更高層次的進(jìn)化提供理性闡釋與描寫。中性論者過多地注目于與功能無關(guān)的分子進(jìn)化,而忽視了與功能相關(guān)的分子進(jìn)化現(xiàn)象與規(guī)律的探索,這恐怕是中性理論之所以能問世,但同時(shí)又先天性地帶上無視宏觀進(jìn)化,對(duì)宏觀進(jìn)化束手無策這一天然缺陷的癥結(jié)所在。進(jìn)化樹分子鐘的發(fā)現(xiàn)對(duì)于進(jìn)化研究具有十分重要的意義。它不僅能用于粗略估計(jì)不同類群生物間的進(jìn)化時(shí)間,亦可用于構(gòu)建進(jìn)化樹。實(shí)際上,分子鐘發(fā)現(xiàn)不久,蛋白質(zhì)序列分析即被廣泛用于生物的長時(shí)進(jìn)化研究。根據(jù)蛋白質(zhì)的序列或結(jié)構(gòu)差異關(guān)系可構(gòu)建分子進(jìn)化樹(evolutionarytree)或種系發(fā)生樹(phylogenetictree)。進(jìn)化樹給出分支層次或拓?fù)鋱D形,它是產(chǎn)生新的基因復(fù)制或享有共同祖先的生物體的歧異點(diǎn)的一種反映,樹枝的長度反映當(dāng)這些事件發(fā)生時(shí)就存在的蛋白質(zhì)與現(xiàn)在的蛋白質(zhì)之間的進(jìn)化距離。根據(jù)進(jìn)化樹不僅可以研究從單細(xì)胞有機(jī)體到多細(xì)胞有機(jī)體的生物進(jìn)化過程,而且可以粗略估計(jì)現(xiàn)存的各類種屬生物的分歧時(shí)間。通過蛋白質(zhì)的分子進(jìn)化樹分析,為從分子水平研究物種進(jìn)化提供了新的手段,可以比較精確的確定某物種的進(jìn)化地位。對(duì)于物種分類問題,蛋白質(zhì)的分子進(jìn)化樹亦可作為一個(gè)重要的依據(jù)。構(gòu)建進(jìn)化樹的方法包括兩種:一類是序列類似性比較,主要是基于氨基酸相對(duì)突變率矩陣(常用PAM250)計(jì)算不同序列差異性積分作為它們的差異性量度(序列進(jìn)化樹);另一類在難以通過序列比較構(gòu)建序列進(jìn)化樹的情況下,通過蛋白質(zhì)結(jié)構(gòu)比較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進(jìn)化樹。序列進(jìn)化樹構(gòu)建序列進(jìn)化樹的主要步驟是比對(duì),建立取代模型,建立進(jìn)化樹以及進(jìn)化樹評(píng)估。建立數(shù)據(jù)模型(比對(duì))建立一個(gè)比對(duì)模型的基本步驟包括:選擇合適的比對(duì)程序;然后從比對(duì)結(jié)果中提取系統(tǒng)發(fā)育的數(shù)據(jù)集,至于如何提取有效數(shù)據(jù),取決于所選擇的建樹程序如何處理容易引起歧義的比對(duì)區(qū)域和插入/刪除序列(即所謂的indel狀態(tài)或者空位狀態(tài))。一個(gè)典型的比對(duì)過程包括:首先應(yīng)用CLUSTALW程序,然后進(jìn)行手工比對(duì),最后提交給一個(gè)建樹程序。這個(gè)過程有如下特征選項(xiàng):(1)部分依賴于計(jì)算機(jī)(也就是說,需要手工調(diào)整);(2)需要一個(gè)先驗(yàn)的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(即需要一個(gè)前導(dǎo)樹);(3)使用先驗(yàn)評(píng)估方法和動(dòng)態(tài)評(píng)估方法(推薦)對(duì)比對(duì)參數(shù)進(jìn)行評(píng)估;(4)對(duì)基本結(jié)構(gòu)(序列)進(jìn)行比對(duì)(對(duì)于親水氨基酸,推薦引入部分二級(jí)結(jié)構(gòu)特征);(5)應(yīng)用非統(tǒng)計(jì)數(shù)學(xué)優(yōu)化。這些特征選項(xiàng)的取舍依賴于系統(tǒng)發(fā)育分析方法。決定取代模型取代模型既影響比對(duì),也影響建樹;因此需要采用遞歸方法。對(duì)于核酸數(shù)據(jù)而言,可以通過取代模型中的兩個(gè)要素進(jìn)行計(jì)算機(jī)評(píng)估,但是對(duì)于氨基酸和密碼子數(shù)據(jù)而言,沒有什么評(píng)估方案。其中一個(gè)要素是堿基之間相互取代的模型;另外一個(gè)要素是序列中不同位點(diǎn)的所有取代的相對(duì)速率。還沒有一種簡(jiǎn)單的計(jì)算機(jī)程序可以對(duì)較復(fù)雜的變量(比如,位點(diǎn)特異性或者系統(tǒng)特異性取代模型)進(jìn)行評(píng)估,同樣,現(xiàn)有的建樹軟件也不可能理解這些復(fù)雜變量。建樹方法三種主要的建樹方法分別是距離、最大節(jié)約(maximumparsimony,MP)和最大似然(maximumlikelihood,ML)。最大似然方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出擁有一定拓?fù)浣Y(jié)構(gòu)和樹枝長度的進(jìn)化樹,這個(gè)進(jìn)化樹能夠以最大的概率導(dǎo)致考察的多重比對(duì)結(jié)果。距離樹考察數(shù)據(jù)組中所有序列的兩兩比對(duì)結(jié)果,通過序列兩兩之間的差異決定進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)和樹枝長度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出的進(jìn)化樹能夠利用最少的離散步驟去解釋多重比對(duì)中的堿基差異。距離方陣方法簡(jiǎn)單的計(jì)算兩個(gè)序列的差異數(shù)量。這個(gè)數(shù)量被看作進(jìn)化距離,而其準(zhǔn)確大小依賴于進(jìn)化模型的選擇。然后運(yùn)行一個(gè)聚類算法,從最相似(也就是說,兩者之間的距離最短)的序列開始,通過距離值方陣計(jì)算出實(shí)際的進(jìn)化樹,或者通過將總的樹枝長度最小化而優(yōu)化出進(jìn)化樹。用最大節(jié)約方法搜索進(jìn)化樹的原理是要求用最小的改變來解釋所要研究的分類群之間的觀察到的差異。最大似然方法評(píng)估所選定的進(jìn)化模型能夠產(chǎn)生實(shí)際觀察到的數(shù)據(jù)的可能性。進(jìn)化模型可能只是簡(jiǎn)單地假定所有核苷酸(或者氨基酸)之間相互轉(zhuǎn)變的概率一樣。程序會(huì)把所有可能的核苷酸輪流置于進(jìn)化樹的內(nèi)部節(jié)點(diǎn)上,并且計(jì)算每一個(gè)這樣的序列產(chǎn)生實(shí)際數(shù)據(jù)的可能性(如果兩個(gè)姐妹分類群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到現(xiàn)在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再現(xiàn)(不僅僅是比較可能的再現(xiàn))的幾率被加總,產(chǎn)生一個(gè)特定位點(diǎn)的似然值,然后這個(gè)數(shù)據(jù)集的所有比對(duì)位點(diǎn)的似然值的加和就是整個(gè)進(jìn)化樹的似然值。進(jìn)化樹搜索單一的進(jìn)化樹的數(shù)量會(huì)隨著分類群數(shù)量的增長而呈指數(shù)增長,從而變?yōu)橐粋€(gè)天文數(shù)字。由于計(jì)算能力的限制,現(xiàn)在一般只允許對(duì)很小一部分的可能的進(jìn)化樹進(jìn)行搜索。具體的數(shù)目主要依賴于分類群的數(shù)量、優(yōu)化標(biāo)準(zhǔn)、參數(shù)設(shè)定、數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)硬件以及計(jì)算機(jī)軟件。有兩種搜索方法保證可以找到最優(yōu)化的進(jìn)化樹:窮舉法和樹枝�跳躍法(BB)。對(duì)于一個(gè)很大的數(shù)據(jù)集,這兩種方法都很不實(shí)用。對(duì)分類群數(shù)量的限制主要取決于數(shù)據(jù)結(jié)構(gòu)和計(jì)算機(jī)速度,但是對(duì)于超過20個(gè)分類群的數(shù)據(jù)集,BB方法很少會(huì)得到應(yīng)用。窮舉法要根據(jù)優(yōu)化標(biāo)準(zhǔn),對(duì)每一個(gè)可能的進(jìn)化樹進(jìn)行評(píng)估。BB方法提供一個(gè)邏輯方法,以確定那些進(jìn)化樹值得評(píng)估,而另一些進(jìn)化樹可被簡(jiǎn)單屏蔽。因此BB方法通常要比窮舉法快得多。絕大多數(shù)分析方法都使用“啟發(fā)式”的搜索。啟發(fā)式現(xiàn)搜索出相近的次優(yōu)化的進(jìn)化樹家族(“島嶼”),然后從中得到優(yōu)化解(“山頂”)。不同的算法用不同程度的精確性搜索這些島嶼和山頂。最徹底也是最慢的程序(TBR,treebisection-reconnection,進(jìn)化樹對(duì)分重接)先把進(jìn)化樹在每一個(gè)內(nèi)部樹枝處劈開,然后以任意方式將劈開的碎片重新組合起來。最快的算法只是檢查一下相鄰終端的不太重要的重新組合,因此傾向于找到最近的島嶼的山頂。降低搜索代價(jià)的最好方法是對(duì)數(shù)據(jù)集進(jìn)行剪除。影響優(yōu)化搜索策略選擇的因素(數(shù)據(jù)量,數(shù)據(jù)結(jié)構(gòu),時(shí)間量,硬件,分析目的)太復(fù)雜,無法推薦一個(gè)簡(jiǎn)單可行的處方。因此進(jìn)行搜索的用戶必須對(duì)數(shù)據(jù)非常熟悉且有明確的目標(biāo),了解各種各樣的搜索程序及自己硬件設(shè)備和軟件的能力。除上述當(dāng)前應(yīng)用最廣的方法外,還有大量的建立和搜索進(jìn)化樹的其它方法。這些方法包括Wagner距離方法和親近方法(距離轉(zhuǎn)化方法);Lake的不變式方法(一個(gè)基于特征符的方法,它選擇的拓?fù)浣Y(jié)構(gòu)包含一個(gè)意義重大的正數(shù)以支持顛換);Hadamard結(jié)合方法(一個(gè)精細(xì)的代數(shù)方陣方法,對(duì)距離數(shù)據(jù)或者觀察到的特征符進(jìn)行修正);裂解方法(這個(gè)方法決定在數(shù)據(jù)中應(yīng)該支持哪一個(gè)基于距離的可選的拓?fù)浣Y(jié)構(gòu));四重奏迷惑(Quartetpuzzling)方法可以為ML建樹方法所應(yīng)用,這個(gè)算法相對(duì)而言是個(gè)較快的進(jìn)化樹搜索算法。確定樹根上述的建樹方法所產(chǎn)生的都是無根樹(進(jìn)化樹沒有進(jìn)化的極性)。為了評(píng)估進(jìn)化假說,通常必須要確定進(jìn)化樹的樹根。確定系統(tǒng)發(fā)育進(jìn)化樹的樹根并不簡(jiǎn)單問題。一種確定樹根的好方法就是分析時(shí)加入一個(gè)復(fù)制的基因。如果來自絕大多數(shù)物種或者所有物種的所有的平行基因在分析時(shí)都被包含進(jìn)去,那么從邏輯上我們就可以把進(jìn)化樹的樹根定位于平行基因進(jìn)化樹的交匯處,當(dāng)然要假定在所有進(jìn)化樹中都沒有長樹枝問題。評(píng)估進(jìn)化樹和數(shù)據(jù)現(xiàn)在已經(jīng)有一些程序可以用來評(píng)估數(shù)據(jù)中的系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹的健壯性。對(duì)于前者,最流行的方法是用數(shù)據(jù)信號(hào)和隨機(jī)數(shù)據(jù)作對(duì)比實(shí)驗(yàn)(偏斜和排列實(shí)驗(yàn));對(duì)于后者,可以對(duì)觀察到的數(shù)據(jù)重新取樣,進(jìn)行進(jìn)化樹的支持實(shí)驗(yàn)(非參數(shù)自引導(dǎo)和對(duì)折方法)。似然比例實(shí)驗(yàn)可以對(duì)取代模型和進(jìn)化樹都進(jìn)行評(píng)估。結(jié)構(gòu)進(jìn)化樹隨著X-ray、NMR等實(shí)驗(yàn)技術(shù)的的進(jìn)步,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的數(shù)量日益增多,結(jié)構(gòu)精度也越來越高,使得結(jié)構(gòu)比較更為可行。目前已經(jīng)發(fā)現(xiàn)許多蛋白的一級(jí)序列差異很大,難以通過序列比對(duì)進(jìn)行分子進(jìn)化的研究,但它們的空間拓?fù)浣Y(jié)構(gòu)仍然很相似,可以進(jìn)行結(jié)構(gòu)疊合比較、分析它們之間的進(jìn)化關(guān)系,這表明結(jié)構(gòu)比較可以比序列比較獲得更多更精確的結(jié)構(gòu)信息。研究發(fā)現(xiàn)蛋白質(zhì)結(jié)構(gòu)比序列的保守性更強(qiáng),進(jìn)化過程中蛋白質(zhì)序列可能發(fā)生變化,但它的折疊模式更為保守,即使是70%的序列發(fā)生變化,它的折疊模式也不會(huì)有很大的改變[1]。蛋白質(zhì)分子的結(jié)構(gòu)比較與蛋白質(zhì)一級(jí)序列比較法相比,具有更高的優(yōu)越性。目前有關(guān)蛋白質(zhì)結(jié)構(gòu)比較的研究方法很多,主要有剛體結(jié)構(gòu)疊合比較、多特征的結(jié)構(gòu)比較等方法。前者用比較后確定的拓?fù)涞葍r(jià)位點(diǎn)的個(gè)數(shù)或等價(jià)位點(diǎn)Cα原子距離的均方根值作為不同結(jié)構(gòu)間差異性的量度(結(jié)構(gòu)進(jìn)化樹);后者用蛋白質(zhì)結(jié)構(gòu)的多項(xiàng)特征如殘基的物理特性、殘基的空間傾向性、主側(cè)鏈的方向、主鏈的二面角、二級(jí)結(jié)構(gòu)類型和主側(cè)鏈的可接近性等綜合指標(biāo)作為結(jié)構(gòu)的差異性量度,有時(shí)稱此類方法構(gòu)建的結(jié)構(gòu)進(jìn)化樹為“類結(jié)構(gòu)”進(jìn)化樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論