第四章序列分析_第1頁
第四章序列分析_第2頁
第四章序列分析_第3頁
第四章序列分析_第4頁
第四章序列分析_第5頁
已閱讀5頁,還剩126頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章序列分析2023/2/1BIOINFORMATICS1本章提要:本章主要介紹DNA和蛋白質序列分析的基本內容。包括核酸序列檢索、核酸序列的基本分析(堿基組份、限制性酶切分析、重復序列分析),基因結構分析、表達標簽序列分析的基本方法和軟件。蛋白質序列基本分析、檢索、跨膜區(qū)分析、蛋白質亞細胞定位、功能預測等內容。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院2§4.1核酸序列分析4.1.1為什么要分析DNA序列

核酸序列分析是生物信息學應用中的一個重要方面?;谝延兄R所形成的核酸序列數(shù)據(jù)庫以及在此基礎之上所形成的二級數(shù)據(jù)庫對未知核酸序列的分析及功能預測具有重要的參考價值。在從事分子生物學研究的幾乎所有實驗室中,對所獲得的核酸序列進行生物信息學分析已經(jīng)成為進行下一步實驗之前的一個標準操作。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院3在很多時候,往往通過一個簡單序列相似性的比較就可以對未知序列進行初步的功能預測,為后續(xù)實驗確定初步的研究方向。本節(jié)將主要講述如何采用生物信息學技術對核酸序列進行較為全面的分析。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院4

序列比較通常在蛋白質水平上進行,或者說在蛋白質翻譯中檢測遠緣序列更為容易一些,因為由64個密碼子(codon)所組成的遺傳密碼(geneticcode)的冗余被縮減成了20個蛋白質的功能單位—氨基酸。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院5然而,這種簡并性可能伴隨著有用信息的丟失,這是因為許多直接與進化過程相關的信息在蛋白質水平無法表現(xiàn),通過核苷酸序列則可以反映出來。例如,沉默突變(silentmutation)就是在DNA水平的突變,但并不導致蛋白質水平的氨基酸置換。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院6隨著測序技術的迅速發(fā)展與普及,越來越多的DNA序列已被測定并存貯在各種分子數(shù)據(jù)庫中(如GenBank)。對這些序列進行分析,可以獲得如下幾個方面的信息:2023/2/1BIOINFORMATICS數(shù)理與生物工程學院7DNA堿基組成、密碼子的偏向、內部重復序

列等;序列及所代表的類群間的系統(tǒng)發(fā)育關系;特殊位點(限制性位點及轉錄、翻譯和表達

調控相關信號);內含子/外顯子(intron/exon)預測所確定的遺傳

結構;可讀框(open-readingframe,ORF)分析所推導

的蛋白質編碼序列(codingsequence,CDS)等。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院84.1.2核酸序列的基本分析核酸序列的檢索已知核酸序列的檢索是核酸序列分析最為基本的一個方面??赏ㄟ^多種方式實現(xiàn)該功能。例如,可通過NCBI使用Entrez(http://:80/entrez/query.fcgi?db=Nucleotide)系統(tǒng)進行檢索,在輸入框中輸入需要檢索的內容,然后點擊按鈕“Go”即可開始(圖4-1)。同樣,也可使用EBI的SRS服務器(http://srs.ebi.ac.uk/)進行檢索,可參考第三章。2023/2/1BIOINFORMATICS9圖4-1NCBI核酸序列檢索的網(wǎng)絡界面2023/2/1BIOINFORMATICS數(shù)理與生物工程學院10在進行序列檢索時,往往需要同時檢索多條序列。這一點可通過邏輯關系式按照GenBank接受號進行批量檢索。例如,需要檢索序列接受號分別為AF113671、AF113672、AF113673、AF113674、AF113675、AF113676的序列,可在序列輸入框中輸入“AF113671[ac]ORAF113672[ac]ORAF113673[ac]ORAF113674[ac]ORAF113675[ac]ORAF113676[ac]”,即可同時檢索出這些序列。其中,“[ac]”是序列接受號的描述字段。GenBank數(shù)據(jù)庫中所采用的描述字段詳見網(wǎng)址/Entrez/entrezhelp.html#SearchFields。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院11分子質量、堿基組成、堿基分布核酸序列的分子質量、堿基組成、堿基分布等分析可通過一些常用軟件如BioEdit(/BioEdit/bioedit.html),DNAMAN(/)等直接獲得。將上述軟件下載后即可進行此類分析。此處以使用DNAMAN軟件進行核酸序列(人環(huán)氧化酶-2mRNA全序列,GenBank接受號AJ627251)基本性質分析為例,可以看出,輸出結果中Composition(組成)和Percentage(百分比)一欄以及MolecularWeight(分子質量)清楚地給出了關于該條序列的有關結果。圖4-2核酸序列基本性質分析示例2023/2/1BIOINFORMATICS數(shù)理與生物工程學院13

序列變換進行序列分析時,經(jīng)常需要對DNA序列進行各種變換,例如反向序列、互補序列、互補反向序列、顯示DNA雙鏈、轉換為RNA序列等。這些使用DNAMAN軟件可以很容易地實現(xiàn),這些功能集中在Sequence→Display,從中可選擇不同的序列變換方式對當前通道的序列進行轉換。2023/2/1BIOINFORMATICS14例如,對一個短序列進行變換后的結果如下:原始序列

5’-ATGAGCGTCTTCCTGCGAAAGCAATGCCTCTGCCTAGGCT-3’反向序列

3’-TCGGATCCGTCTCCGTAACGAAAGCGTCCTTCTGCGAGTA-5’互補序列

3’-TACTCGCAGAAGGACGCTTTCGTTACGGAGACGGATCCGA-5’反向互補序列

5’-AGCCTAGGCAGAGGCATTGCTTTCGCAGGAAGACGCTCAT-3’DNA雙鏈

5’-ATGAGCGTCTTCCTGCGAAAGCAATGCCTCTGCCTAGGCT-3’3’-TACTCGCAGAAGGACGCTTTCGTTACGGAGACGGATCCGA-5’RNA序列

5’-AUGAGCGUCUUCCUGCGAAAGCAAUGCCUCUGCCUAGGCU-3’2023/2/1BIOINFORMATICS數(shù)理與生物工程學院15

限制性酶切分析限制性酶切分析是分子生物學實驗中的日常工作之一。該方面最好的資源是限制酶數(shù)據(jù)庫(RestrictionEnzymeDatabase,REBASE)。REBASE數(shù)據(jù)庫中含有限制酶的所有信息,包括甲基化酶、相應的微生物來源、識別序列位點、裂解位點、甲基化特異性、酶的商業(yè)來源以及公開發(fā)表的和未發(fā)表的參考文獻(,/rebase)。國際互聯(lián)網(wǎng)上也有大量資源可供實時地進行限制性酶切分析(表4-1)。2023/2/1BIOINFORMATICS16表4-1國際互聯(lián)網(wǎng)中的核酸序列限制性酶切分析資源資源網(wǎng)址WebGenehttp://www/-tjyin/WebGene/RE.html/person&tyin.htmlWebCutter2http://www//firstm2023/2/1BIOINFORMATICS數(shù)理與生物工程學院17同時,很多軟件也能夠識別REBASE限制酶數(shù)據(jù)庫。此處以使用BioEdit軟件進行核酸序列限制性酶切分析為例加以說明。將待分析序列輸入BioEdit軟件的序列顯示區(qū)后,按照圖4-3的說明即可完成分析過程,其結果見圖4-4。圖4-3使用BioEdit軟件進行核酸序列限制性酶切分析界面圖4-4使用BioEdit軟件進行核酸序列限制性酶切分析結果示例2023/2/1BIOINFORMATICS數(shù)理與生物工程學院20上述結果中給出了指定DNA序列的酶切位點信息,為克隆鑒定和亞克隆提供了重要信息。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院21

重復序列分析脊椎動物基因組中各種重復序列占有很高的比例。目前已經(jīng)開發(fā)了一批重復序列數(shù)據(jù)庫,如RepBase(/server/RepBase/)。著名的RepeatMasker軟件就是基于該數(shù)據(jù)庫進行工作(/cgi-bin/RepeatMasker),使用該程序可以進行重復序列片段分析。圖4-5利用RepeatMasker軟件分析重復序列的網(wǎng)絡界面2023/2/1BIOINFORMATICS數(shù)理與生物工程學院234.1.3基因結構與DNA序列分析真核基因結構具有一些關鍵特征(圖4-6),這是我們理解基因結構對序列分析的影響所必須考慮的。這些特征包括內含子、外顯子、編碼序列、非翻譯區(qū)(untranslatedregion,UTR)等。而原核基因通常缺少內含子,結構相對簡單。圖4-6真核基因結構示意圖2023/2/1BIOINFORMATICS數(shù)理與生物工程學院25

非翻譯區(qū)非翻譯區(qū)(UTR)在DNA和RNA中均有,它們是位于蛋白質編碼序列(CDS)兩側的序列,未被翻譯成蛋白質。尤其是3’端,無論是對基因還是對物種都是高度特異的。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院26

概念性翻譯如圖4-7給定一個DNA序列,可以利用遺傳密碼將其翻譯為蛋白質序列,這種方式稱為概念性翻譯(conceptualtranslation)。與基于生化實驗的蛋白質翻譯不同的是,概念性翻譯僅通過理論推導或計算獲得。對任意一個DNA序列,可能并不知道哪一個堿基代表CDS的起始,也不知道其閱讀方向。這種情況下,不妨試用六框翻譯(six-frametranslation)。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院27六框翻譯通過移動閱讀框起始堿基,獲得6個潛在的蛋白質序列。其中,3個是正向翻譯,3個是反向翻譯,6種可能的蛋白質中至多只有一種是正確的。查詢序列

1ggccagatggaacatattgctttcgggagcacaaggatcgggtctactacgtctcggagc61ggattttgaagctgagcgagtgcttcggctacaagcagctggtgtgcgtgggcacctgct121tcggcaagttctccaagaccaacaaactgaagttccatatcacggcgctctactacttgg181cgccctacgcccagtacaaggtgtgggtgaagcectccttcgagcagcagtttctctacg六框翻譯氨基酸正向序列1GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST正向序列2ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR正向序列3PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTALYYLAPYAQYKVWVKPSFEQQFLY反向序列1RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA反向序列2VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW反向序列3PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPI'HTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG(*代表一個終止密碼子)

圖4-7六框氨基酸翻譯2023/2/1BIOINFORMATICS數(shù)理與生物工程學院29從圖4-7中可以看出,用不同的閱讀框翻譯CDS可能獲得不同的蛋白質編碼序列。哪一種是“正確”的呢?通常認為是可讀框(ORF)即沒有終止密碼子(TGA,TAA或TAG)打斷的閱讀框。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院30mRNA需要翻譯為蛋白質方能發(fā)揮其生物學作用,因此,核酸序列的可讀框架(Openreadingframe,ORF)的分析便成為核酸分析的一個重要部分?;谶z傳密碼表,可通過計算機方便地分析核酸序列的讀碼框。對于真核生物而言,一條全長cDNA序列將只含有單一的開放閱讀框架。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院31非全長的cDNA序列如ESTs,常常來源于3’末端測序的結果,從而含有3’非編碼區(qū)。典型情況下,一般按照具有合適的起始密碼子和終止密碼子來查找最長的ORF,或者在同一相位含有前置終止密碼子的起始密碼子,并具有poly(A)末尾的區(qū)域視為最可能的ORF。發(fā)現(xiàn)ORF的末端要比找到起始端更容易一些。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院32一般來說,CDS中的起始密碼子(initialcodon)ATG是編碼甲硫氨酸(Met)的,但在CDS內也很常見,所以ATG的出現(xiàn)并不意味著一定就是ORF的起始,還需要應用其他技術來檢測5’UTR。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院33大量實驗證明,在真核生物起始蛋白質合成時,40S核糖體亞基及有關合成起始因子首先與mRNA模板靠近5'末端處結合,然后向3'末端方向滑行,發(fā)現(xiàn)AUG起始密碼子時,與60S大亞基結合形成80S起始復合物。這就是Kozak提出的真核生物蛋白質合成起始的“掃描模式”。Kozak調查了200多種真核生物mRNA中5’末端第一個AUG前后序列發(fā)現(xiàn),除17個例外,其余都是A/GNNAUGG,說明這樣的序列對翻譯起始來說最為合適。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院34具體而言,AUG很可能是真核生物惟一的翻譯起始位點,具有生物學功能的起始密碼AUG總是出現(xiàn)在一定的核苷酸序列框架之內。首先,AUG上游(即5'方向)的第三個核苷酸,常常是嘌呤,且多數(shù)是A;其次,緊跟在AUG后面的核苷酸,常常也是嘌呤,但多數(shù)情況下是G。實驗表明,AUG附近的核苷酸序列中ANNAUGN和GNNAUGPU的利用率最高,而沒有起始功能AUG附近的核苷酸序列則無此保守性。這就是所謂的“Kozak序列”,在分析讀碼框時需要重點參考。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院35下列幾種特性可以用來檢測DNA序列中潛在的CDS:(1)、ORF長度

很難隨機地發(fā)現(xiàn)很長的ORF,因而長的ORF很可能意味著存在CDS。(2)、Kozak序列

該序列是在起始密碼子之前與核糖體作用的位點。在高等原核生物中其一致序列為GCCACC(ATG),而在酵母中為AAAAAA(ATG)。它們可以用來檢測CDS的起始。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院36(3)、密碼子用法(codonusage)

在編碼區(qū)和非編碼區(qū)中,密碼子用法是不同的。尤其是對特定氨基酸,密碼子的用法可能隨物種而變。因而,統(tǒng)計密碼子用法可以用來推斷5‘和3’UTR,并且有助于檢測錯譯(見表4-2)。2023/2/1BIOINFORMATICS37表4-2部分模式生物中密碼子用法的百分比密碼子E.coliD.melanogasterH.sapiensZ.maysS.cerevisiaeATG311035AGC202334304TCG4179221TCA22546TCT34913452TCC3748283733

此外,在許多生物中已經(jīng)發(fā)現(xiàn)在密碼子第三個堿基位置上偏好G/C而不是A/T,G/C的概率偏向也可以幫助我們檢測出CDS2023/2/1BIOINFORMATICS數(shù)理與生物工程學院38

編碼區(qū)/內含子結構分析(1)“斷裂”的真核基因大多數(shù)真核基因都是由蛋白質編碼序列和非蛋白質編碼序列兩部分組成的。編碼序列稱為外顯子(exon),非編碼序列稱為內含子(intron)。在一個結構基因中,編碼某一蛋白質序列不同區(qū)域的各個外顯子并不連續(xù)排列在一起,而常常被長度不等的內含子所隔離,形成鑲嵌排列的斷裂方式,所以,真核基因有時被稱為斷裂基因(interruptedgene)。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院39

編碼區(qū)/內含子結構分析在基因轉錄、加工產生成熟mRNA分子時,內含子通過剪接加工被去掉,保留在成熟mRNA分子中的外顯子被拼接在一起,最終被翻譯成蛋白質。因此通過反轉錄酶的作用,由成熟mRNA產生的cDNA分子中,只含有外顯子,沒有內含子。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院40真核基因在結構上的不連續(xù)性是近10年來生物學上的重大發(fā)現(xiàn)之一。當基因轉錄成pre-mRNA后,除了在5’端加帽及3’端加多聚A(poly-A)之外,還要將隔開各個相鄰編碼區(qū)的內含子剪去,使外顯子相連后成為成熟mRNA。研究發(fā)現(xiàn),有許多基因不是將它們的內含子全部剪去,而是在不同的細胞或不同的發(fā)育階段有選擇地剪切其中部分內含子,因此生成不同的mRNA及蛋白質分子。由于RNA的選擇性剪接不牽涉到遺傳信息的永久性改變,所以是真核基因表達調控中一種比較靈活的方式。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院41(2)外顯子—內含子連接區(qū)真核基因斷裂結構的另一個重要特點是外顯子—內含子連接區(qū)(exon-intronjunction)的高度保守性和特異性堿基序列。外顯子—內含子連接區(qū)就是指外顯子和內含子的交界,又稱邊界序列。外顯子—內含子連接區(qū)有兩個重要特征:2023/2/1BIOINFORMATICS數(shù)理與生物工程學院42內含子的兩端序列之間沒有廣泛的同源性,因此內含子兩端序列不能互補。這說明在剪接加工之前,內含子上游序列和下游序列不可能通過堿基配對形成發(fā)卡式二級結構2023/2/1BIOINFORMATICS數(shù)理與生物工程學院43外顯子—內含子連接區(qū)序列雖然很短,但卻是高度保守的。這一序列與剪接機制密切相關,它是RNA剪接的信號序列。序列分析表明,幾乎每個內含子5’端起始的兩個堿基都是GT,3’端最后兩個堿基總是AG。由于這兩個堿基的高度保守性和存在的廣泛性,有人把它稱為GT/AG法則,即5‘-GT......AG-3’。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院44由于內含子兩端的接頭序列不同,因此可定向表明內含子的兩個末端,根據(jù)剪接加工過程沿內含子自左向右進行的原則,一般將內含子5'端接頭序列稱為左剪接位點,3'端接頭序列稱為右剪接位點,有時也將前者稱為供體位點(donorsite),將后者稱為受體位點(acceptorsite)。外顯子—內含子在連接區(qū)的保守序列幾乎存在于所有高等真核生物基因中,表明在這些基因中,可能存在著一個共同的剪接加工機制。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院45

克隆序列DNA序列分析的一個重要方面是確定克隆的核苷酸序列。在克隆已知序列基因的實驗中,比較克隆序列與已發(fā)表序列的是否一致是十分重要的。如果兩者不一致,就可能要重新設計實驗。例如,PCR過程中引物或酶選擇不當,都有可能導致錯誤。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院46§4.2表達序列標簽分析4.2.1cDNA文庫與表達序列標簽cDNA(complementaryDNA,互補DNA)是指與RNA序列互補的DNA,由RNA啟動的DNA多聚酶(RNA-dependentDNApolymerase)或反轉錄酶(reversetranscriptase)合成。這種酶的單鏈DNA產物(反轉錄物),可用DNA啟動的DNA多聚酶轉換成雙鏈形式,并插入合適的載體成為一個cDNA克隆。cDNA克隆是成熟mRNA分子的拷貝,不含任何內含子序列,因而只要與克隆載體上合適的啟動子序列相連接,就很容易在任何一種生物體內表達。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院47一個cDNA文庫(cDNAlibrary)中包含多個cDNA克隆,可用于后續(xù)的序列分析。例如,可以從一個具有2000000個克隆的文庫中隨機選取10000個樣品并進行測序,結果則貯存在計算機數(shù)據(jù)庫中供進一步的序列分析。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院48表達序列標簽(expressedsequencetag,EST)是從cDNA文庫中生成的一些很短的序列(300—500bp),它們代表在特定組織或發(fā)育階段表達的基因,有時可代表特定的cDNA。EST可能是編碼的,也可能不是,而兩端有重疊序列的EST可以組裝成全長的cDNA序列。因此,EST的研究與表達分析可以作為一種發(fā)現(xiàn)新基因的有效方法。事實上,該方法已在人類基因組圖譜繪制、新基因克隆和基因組序列編碼區(qū)的確定等方面發(fā)揮了極為重要的作用。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院49EST與cDNA的關系圖4-8示出了EST與cDNA以及CDS和UTR之間的關系。應用自動測序系統(tǒng),對每個cDNA克隆的一種讀法可以產生一個EST。有的方法采用的引物可能使一個克隆產生兩種讀法,一個從5‘端起始,另一個從3’端起始。圖4-8EST與cDNA以及CDS和UTR之間的關系2023/2/1BIOINFORMATICS數(shù)理與生物工程學院51值得一提的是,雖然全長cDNA序列分析十分重要,但我們并非總能獲得全長序列的信息。事實上,現(xiàn)階段基因數(shù)據(jù)庫中收錄的DNA序列數(shù)據(jù)絕大許多都不是全長的,而是EST。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院52EST要素在進行EST分析時,需要注意以下幾點:

(1)EST字母表EST測序是高度自動化的,盡管電泳分析軟件已經(jīng)十分完善,但還是不能確定序列中個別位點究竟是哪個堿基?最終序列中會出現(xiàn)一些其他字母。表4-3IUB-IUPAC編碼符號代表的堿基符號代表的堿基AAYC或T或UCCKC或TT/UGVA或G或CMA或CHA或C或TRA或GDA或G或TWA或TBC或G或TSC或GX/NG或A或T或C2023/2/1BIOINFORMATICS數(shù)理與生物工程學院54(2)INDEL(插入/缺失)和移碼(frameshift)盡管測序軟件有一定的容錯能力,還是會出現(xiàn)一定的偏差,有些本來沒有的堿基被讀出,而應該讀出的堿基卻不能讀出。結果表現(xiàn)為錯誤的插入或缺失。用計算機軟件在蛋白質水平的相似性查詢,也可能發(fā)生同樣的情況,導致虛假的中止信號,或者所有的六框翻譯都出錯。判斷出錯誤的INDEL和移碼是十分必要的,這也是翻譯工作的復雜性之所在。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院55(3)剪接變體不是所有的外顯子都能出現(xiàn)在轉錄mRNA過程中,因而真核基因產物可能有不同長度,即最終產生的mRNA中可能只包含部分外顯子。即使長度相同,也可能因為外顯子排列順序改變而得到不同蛋白質序列。從同一DNA,轉錄得到不同mRNA,并最終翻譯成不同的蛋白質稱為剪接變體(splicevariant)或可變剪接形式(alternativelysplicedform)。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院56單一基因的選擇剪接方式是全長序列分析的重要內容。如圖4-9所示,剪接變體的存在將影響EST的檢索與分析。測序的錯誤也許會使EST變成無用的序列,因為其中不僅包含了模糊堿基,而且還可能丟失堿基。當EST很短時,問題就更嚴重了,很可能全部落入一個特定的外顯子中。在這種情況下,如果數(shù)據(jù)庫中存在選擇剪接方式并且均含此外顯子,那就不可能知道這個EST所代表的是哪種形式了。圖4-9剪接變體與EST圖示為一段mRNA,有3個外顯子邊界標記,兩種匹配方式

(a)EST與外顯子1、

3、4有相似性,而缺失了2,表明可能是一個剪接變體;(b)EST完全落在外顯子3的區(qū)域里,所以不能確定它是不是代表了一個

剪接變體2023/2/1BIOINFORMATICS數(shù)理與生物工程學院58(4)非編碼區(qū)EST許多mRNA(尤其是人類的)在CDS的5'端和3'端有長的UTR。一個EST來源于這些非編碼區(qū)的可能性是相當大的。如果幸運的話,UTR(非編碼)序列已貯存在數(shù)據(jù)庫中。因其高度保守且對編碼基因而言是特異的,可以找到一個直接的匹配。

如果不是那么幸運的話,就不能找到匹配。這又存在兩種可能性:一是這個EST雖代表了一個CDS,但數(shù)據(jù)庫中沒有相似序列;二是它代表了一個非編碼序列,也不存在數(shù)據(jù)庫記錄。EST分析中必須清楚這兩種情況的差別。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院594.2.2EST數(shù)據(jù)庫鑒于EST在基因研究和商業(yè)開發(fā)上的重要應用價值,人們已經(jīng)建立了大量的EST數(shù)據(jù)庫。到目前為止,主要的通用公共數(shù)據(jù)庫包括EMBL數(shù)據(jù)庫中的ETS部分以及GenBank中的dbEST。通過下面3個例子,可以初步了解EST數(shù)據(jù)的不同來源。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院60(1)Merck/UniversityofWashington1994年,Merck公司資助美國華盛頓大學開展有關從多種規(guī)范化cDNA文庫中測定EST序列的研究項目。截止1997年,該項目已提交dbEST584000個EST。此外,HowardHughes醫(yī)學中心資助華盛頓大學測定小鼠克隆序列,提交dbEST近400000個EST,大多數(shù)為5'端。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院61(2)IncyteIncyte制藥公司建立了一個數(shù)據(jù)庫LifeSeq,重點是通過從標準cDNA文庫測序獲得定量數(shù)據(jù)。其目標在于提供健康和疾病組織中轉錄基因相對拷貝數(shù)的信息,以期發(fā)現(xiàn)潛在的治療靶標。到1998年4月,LifeSeq中已包含了2500000個EST,代表80000-120000個不同的基因。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院62(3)TIGR-HGI美國基因組研究所(TheInstituteforGenomicResearch,TIGR)是一個非盈利的研究機構,成立于1992年。其人類基因索引(HumanGeneIndex,HGI)旨在綜合全球人類基因研究的成果(包括dbEST及GenBank)。

它已經(jīng)從300個以上的cDNA文庫中測定了超過100000個的EST序列。有興趣的讀者可以訪問“TIGRGeneIndices”網(wǎng)頁(/tdb/tgi.shtml)。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院634.2.3EST分析盡管EST本身是不完整的甚至可能是不精確的DNA序列,但EST分析(例如,檢測新的EST與分子數(shù)據(jù)庫中收錄的大量EST匹配與否)將為確定全長CDS和尋找新基因提供有價值的線索。EST分析工具很多,除商用的(如Incyte—LifeTools)外,公用的工具通常分為3類:

①序列相似性查詢(sequencesimilaritysearch);

②序列組裝(sequence

assembly);

③序列聚類(sequencecluster)。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院64(1)相似性查詢工具序列相似性查詢工具已在上章中介紹。其中BLAST系列可用于EST查詢。tBLASTn可以翻譯DNA數(shù)據(jù)庫,BLASTx翻譯輸入數(shù)據(jù),tBLASTx則兩者均可。FASTA亦有類似的功能。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院65(2)組裝工具用一個“探針”序列在數(shù)據(jù)庫中搜索可獲得與之相匹配的EST序列,通常需要對這些EST序列進行對位排列(sequencealignment)以獲得一致性序列。下一輪搜索得到的EST同樣也應參與對位排列。這種反復的對位排列工作稱為序列組裝。相關的軟件工具有Staden組裝器、TIGR組裝器和Phrap等。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院66(3)聚類工具序列聚類工具是指將一個大的序列集合分解成亞集(subset)或簇(cluster)的計算機軟件,如果不同序列之間有一段重疊序列,并且超過一定長度,這兩段序列就應該能拼接在一起,從而應聚為一類。一個可靠而有效的EST聚類方法將減小數(shù)據(jù)集的冗余度,節(jié)省數(shù)據(jù)庫搜索時間??傊?,如果我們已得到大量的EST序列,并且需要估計出它們所代表基因的數(shù)目時,聚類工具就顯得特別重要。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院67圖4-10示出了EST序列聚類的一個例子。其中,一個EST文庫被分解成A、B、C、D4個集合,箭頭方向表示EST間的重疊是正義(plussense)的還是負義(minussense)的。例如,A中兩個EST是正義重疊,一個是負義重疊;C中兩個正義,兩個負義,等等。實際上,這里的EST正負義僅是象征性的,真實的正負義只能由數(shù)據(jù)庫比較確定。圖4-10EST聚類2023/2/1BIOINFORMATICS數(shù)理與生物工程學院69EST聚類的一種策略是用已知的基因去引導EST的劃分。EST可以從各種各樣的DNA和蛋白質序列數(shù)據(jù)庫中搜索出來并聚合成代表單一基因的集合。一般來說這種方法可能產生出與數(shù)據(jù)庫中任何一段序列不相匹配的EST簇。從一個給定的文庫中得到不相匹配的EST的比例約為40%。隨著基因組測序項目的增加,將有更多的信息被提供,這個比例值還會繼續(xù)降低。因而,需要更新的方法(如重疊鑒定)來聚合剩余的序列。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院70另一種策略是先聚合所有的EST以產生一個代表每個集合的一致性序列(consensussequence),然后僅用這個一致性序列去進行數(shù)據(jù)庫檢索。這是一個較為理想的方案,因為它顯著地減少了相似性檢索的數(shù)量。然而,這種策略的成功很大程度上依賴于EST聚類的可靠性,而EST聚類又與EST數(shù)據(jù)的質量密切相關。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院71估算EST文庫所代表基因的數(shù)目是一項較為復雜的工作,因為不相匹配的EST也許并不代表不同的基因。以下兩種情況應當被考慮:首先,如圖4-11(a)所示,一個簇(圖中的C)可能與一個基因的非特征區(qū)相對應,另一種可能是該基因的特征區(qū)對應多個簇(圖中的A和B)。例如,3‘UTR在數(shù)據(jù)庫記錄中通常是不完整的,或者一個基因只是一條部分的序列記錄。在這種情況下,將一個不匹配的EST簇看做是一個單獨的基因將會高估基因的數(shù)目;2023/2/1BIOINFORMATICS數(shù)理與生物工程學院72其次,如圖4-11(b)所示,可能有兩個或更多的未匹配簇(圖中的D和E)對應于同一個基因的不同區(qū)域。如果將所有不相匹配的EST簇都算做基因的話,所估計的基因總數(shù)將明顯偏高。圖4-11EST簇與基因數(shù)目估計2023/2/1BIOINFORMATICS數(shù)理與生物工程學院74§4.3電子克隆cDNA全長序列電子克隆,又稱虛擬克隆(virtualcloning),其原理是根據(jù)大量EST具有相互重疊的性質,通過計算機算法獲得cDNA全長序列。換言之,電子克隆不采用傳統(tǒng)的分子生物學實驗方法,而是由一個查詢序列開始,依靠EST數(shù)據(jù)庫在計算機上對EST進行兩端延伸,從而獲得全長的cDNA序列。電子克隆需要綜合多種DNA序列分析技術。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院75從部分序列得到全長cDNA的分子生物學實驗方法通常有雜交篩選文庫或5‘末端延伸法。電子克隆則以部分cDNA為起始,和Genbank的EST數(shù)據(jù)庫dbEST進行BLAST檢索,得到與5‘端或3’端有相似序列的EST,然后以該EST為模板,進一步搜索EST數(shù)據(jù)庫,一直往前延伸,直到找到終止密碼子,得到全長cDNA??梢姡摲椒ㄒ蕾囉谧銐虻哪┒酥丿B并且能夠往前延伸的EST序列。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院76序列拼接軟件通過計算序列中的每個位點上各種核苷酸可能出現(xiàn)的分值,找出調和序列。可以設置一些參數(shù)來約束每個位點允許出現(xiàn)的錯配堿基數(shù)。通常,為確定序列拼接質量,需要對一個片段進行多次測序。正鏈和負鏈上每個位置至少有兩次以上的測序結果一致,該位點的測序結果才比較可信;相反,序列中某一位點幾次測序結果不一致,這一位點的可信度則較低。AACCGTTACGAAACCAGGTGCAACCGTTACGAAACCAGGTGCGCGCCCGCGGGAATAACCGTTACGAACCCAGGTGCAACCGTTACGAAaCCAGGTGCGCGCCCGcGGGAATCCTAAAAACGCGCCCGCGGGAATCCTAAAAATGCGCGCCCGAGGGAATCCTAAAAA圖4-12序列拼接示例2023/2/1BIOINFORMATICS772023/2/1BIOINFORMATICS數(shù)理與生物工程學院78圖中用于拼接的序列包括3條正鏈和2條負鏈。5個測序結果中,有2個位點出現(xiàn)了錯誤,這些錯誤將導致這兩個位置堿基一致性程度降低,此時,需要用其他數(shù)據(jù)加以驗證,或對測序過程中所得圖譜進行人工分析。一般來說,必須利用全長正鏈和負鏈測序數(shù)據(jù),才能保證拼接結果質量。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院794-1例一個電子克隆的練習。假定從已發(fā)表的釀酒酵母(S.cerevisiae)的基因組中尋找一個編碼未知蛋白的基因。僅有的信息是一個在酵母基因組14號染色體上發(fā)現(xiàn)的編號YNR064c的可能的可讀框(ORF)。這項工作包含3個方面的內容:(a)、從公共數(shù)據(jù)庫中分離一個基因(或ORF);

(b)、分析所恢復序列的限制性酶切位點;

(c)、確定克隆策略。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院80(1)從基因組數(shù)據(jù)庫中分離基因登錄到一個包含酵母基因組DNA數(shù)據(jù)庫的網(wǎng)站,如http//srs.ebi.ac.uk/以便利用EMBL數(shù)據(jù)庫SRS系統(tǒng));進入數(shù)據(jù)庫的查詢界面;在查詢表中你可以發(fā)現(xiàn)不同類型的數(shù)據(jù)庫。選擇EMBL和EMBLNEW的數(shù)據(jù)庫;鍵入登錄號ynr064c,進行“QuickSearch”;點擊鏈接,獲得數(shù)據(jù)庫查詢的結果;獲得的頁面包括GenBank中收錄的所有與064YNRc有關的數(shù)據(jù),你將發(fā)現(xiàn)一條從5'-3'的含有目的基因的DNA鏈。

圖4-13WebCutter軟件網(wǎng)絡界面2023/2/1BIOINFORMATICS數(shù)理與生物工程學院82(2)在網(wǎng)絡上分析限制性位點打開一個新窗口(WebCutter)連接:http//bio.lundberg.gu.se/cutter2/.。這是一個進行在線限制性酶切位點分析的網(wǎng)站。這個程序可以通過簡單的“剪切—粘貼”DNA序列來進行限制性酶切位點分析;在原先的網(wǎng)頁瀏覽窗口(包含064YNRc數(shù)據(jù)的那一頁),選中整段DNA序列;在選中的區(qū)域點擊右鍵,選擇<Copy>;2023/2/1BIOINFORMATICS數(shù)理與生物工程學院83返回有WebCutter的窗口。在方框里點擊鼠標左鍵來把鼠標的光標置于DNA序列框中,按右鍵選擇<Paste>。將從數(shù)據(jù)庫中獲得的整個DNA序列放入WebCutter程序的DNA序列分析框中;保留所有限制性內切酶分析的默認設置。對YNR064c進行限制性內切酶分析。按下<Analyzesequence>。等待。分析通常需要10秒至幾分鐘,時間取決于分析時的網(wǎng)絡狀況;如果耗時太長,按<stop>來放棄分析過程,按<back>再按<Analyzesequence>,繼續(xù)等待,并多嘗試幾次;2023/2/1BIOINFORMATICS數(shù)理與生物工程學院84(3)確定克隆策略研究輸出文件,尋找起始密碼子和終止密碼子的位置以及編碼序列(CDS)的方向;比較分析限制性酶切圖譜(WebCutter),尋找能夠切除多余序列保留完整編碼序列的限制性內切酶;除電子方法外,必須對YNR064c的編碼區(qū)進行亞克隆,才能得到編碼該蛋白的基因全長序列。所謂亞克隆就是對已經(jīng)獲得的目的DNA片段進行重新克隆,其目的在于對目的DNA進行進一步分析,或者進行重組改造等。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院85例4-2用電子克隆的方法獲得一種新的蛋白激酶A錨定蛋白(AKAP基因)的例子。結果得到2106bp的一段cDNA,和northernblotting雜交顯示的結果相接近,為全長cDNA??衫玫腅ST序列有:H18281、H46461、AL120999、A1479138、R35395、A1677943和AL045281。各EST序列的位置和剪接圖如圖5-14所示。圖4-14AKAP基因的電子克隆2023/2/1BIOINFORMATICS數(shù)理與生物工程學院88§4.4蛋白質序列分析蛋白質序列分析是從理論分析邁向實驗研究的重要步驟。如果擬對感興趣的基因投入實驗研究,基于生物信息學獲得盡可能多的關于該基因/蛋白質的信息是十分必要的,尤其是用生物信息學分析得到蛋白質的結構功能域信息對研究思路的制定具有重要的指導意義。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院894.4.1蛋白質序列基本分析蛋白質序列的基本性質分析是蛋白質序列分析的基本方面,一般包括蛋白質的氨基酸組成、分子質量、等電點(pI)、親水性和疏水性、信號肽、跨膜區(qū)及結構功能域的分析等。蛋白質的很多功能特征可直接由分析其序列而獲得。例如,疏水性圖譜可用來預測跨膜螺旋。同時,也有很多短片段被細胞用來將目的蛋白質向特定細胞器進行轉移的靶標(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白質將被引向內質網(wǎng))。Web中有很多此類資源用于幫助預測蛋白質的功能。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院90其中關于蛋白質的氨基酸組成、分子質量、等電點等方面的分析均可使用本地化的軟件(如MacVector,OMIGA,DNAMAN,BioEdit等)進行,所以此處不進行詳述,而只是對蛋白質序列的信號肽和跨膜區(qū)分析的網(wǎng)絡資源進行描述。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院91

蛋白質序列檢索與核酸序列分析一樣,蛋白質序列檢索往往是序列分析的第一步。由于數(shù)據(jù)庫和網(wǎng)絡技術的發(fā)展,蛋白質序列的檢索是十分方便的。你可以從NCBI網(wǎng)站/entrez/query.fcgi?CMD=search&DB=protein進行檢索。在輸入框中輸入需要檢索的內容,然后點擊Go即可開始。圖4-15GenBank檢索蛋白質序列頁面圖4-16AccessionNumber為P02700的蛋白質GenBank格式的信息

2023/2/1BIOINFORMATICS數(shù)理與生物工程學院95

疏水性分析位于ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可被用來計算蛋白質的疏水性圖譜。該網(wǎng)站允許用戶計算蛋白質的50余種不同屬性,并為每一種氨基酸輸出相應的分值。輸入的數(shù)據(jù)可為蛋白質序列或者SWISS-PROT數(shù)據(jù)庫的序列接受號。需要調整的只是計算窗口的大小(n)。該參數(shù)用于估計每種氨基酸殘基的平均顯示尺度。例如,如果參數(shù)n為9,則顯示從5(=n-4)到13(=n+4)位之間其疏水性的平均值。該參數(shù)有助于對數(shù)據(jù)進行平滑,也可使親水性和疏水性的區(qū)域更加突出。典型的默認值為9。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院96進行蛋白質的親/疏水性分析時,也可使用一些Windows下的軟件資源,例如BioEdit,DNAMAN等。圖4-17中顯示使用BioEdit軟件采用Kyte和Doolittle算法對羊OPSD蛋白質進行親/疏水性分析的結果,結果提示多個區(qū)域為疏水性區(qū)域。圖4-17使用BioEdit軟件對OPSD_SHEET蛋白質進行親水/疏水分析結果示例2023/2/1BIOINFORMATICS數(shù)理與生物工程學院98

跨膜區(qū)分析有多種預測跨膜螺旋的方法,最簡單的是直接觀察以20個氨基酸為單位的疏水性氨基酸殘基的分布區(qū)域。但是同時還有多種更加復雜的、精確的算法能夠預測跨膜螺旋的具體位置和它們的膜向性。這些技術主要是基于對已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase數(shù)據(jù)庫,可通過匿名FTP獲得(http://www.isrec.isb-sib.ch/ftp-server/tmbas),參見表4-4。表4-4蛋白質跨膜區(qū)域分析的網(wǎng)絡資源資源名稱網(wǎng)址說明TMPRED/software/TMPRED_form.html基于對Tmbase數(shù)據(jù)庫的統(tǒng)計學分析PHDhtmhttp://www.embl-heidelberg.de/Services/sander/predictproteinMEMSATftp://ftp.biochem.ucl.ac.uk微機版本2023/2/1BIOINFORMATICS數(shù)理與生物工程學院100蛋白質的跨膜螺旋特征是可通過序列分析直接得到預測并獲得較好結果的一個性質。蛋白質序列含有跨膜區(qū)提示它可能作為膜受體起作用,也可能是定位于膜的錨定蛋白或離子通道蛋白等。因而,含有跨膜區(qū)的蛋白質往往和細胞的功能狀態(tài)密切相關。圖4-18和圖4-19為兩個蛋白質跨膜螺旋區(qū)分析的常用軟件TMHMM和TMPRED的網(wǎng)絡界面。圖4-18蛋白質跨膜螺旋區(qū)分析的常用軟件TMHMM網(wǎng)絡界面圖4-19蛋白質跨膜螺旋區(qū)分析的常用軟件TMPRED網(wǎng)絡界面2023/2/1BIOINFORMATICS數(shù)理與生物工程學院103

前導肽和蛋白質定位在生物體內,蛋白質的合成場所與功能場所常常被一層或多層細胞膜所隔開,這樣就產生了蛋白質轉運的問題。核糖體是真核生物細胞內合成蛋白質的場所,幾乎在任何時候,都有數(shù)以百計或千計的蛋白質離開核糖體并被輸送到細胞各個部分(如細胞質、細胞核、線粒體、葉綠體等),以補充細胞的物質成分和更新細胞功能。由于細胞各部分都有特定的蛋白質組分,因此,合成的蛋白質必須準確無誤地定向運送才能保證生命活動的正常進行。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院104對于亞細胞結構和細胞器來說,合成的蛋白質運到有關部位后還需要跨膜運送才能發(fā)揮正常功能。關于蛋白質的轉運問題也是生物信息學所關注的問題。一般說來,蛋白質轉運可分為兩大類:若細胞內蛋白質合成和轉運時同時發(fā)生的,屬于翻譯轉運同步機制;若蛋白質從核糖體釋放后才發(fā)生轉運,則屬于翻譯后轉運機制。這兩種轉運方式都涉及到蛋白質分子內特定區(qū)域與細胞膜結構的相互關系。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院105一般認為,蛋白質定位的信息存在于該蛋白質自身結構中,并且通過與膜上特殊受體的相互作用得以表達。這就是信號肽假說的基礎。這一假說認為,穿膜蛋白質是由mRNA編碼的。在起始密碼子后,有一段編碼疏水性氨基酸序列的RNA片段,這個氨基酸序列就稱為信號序列(signalsequence)。此理論為采用生物信息學基于蛋白質序列分析其信號肽提供了基礎。研究各種分泌蛋白的信號肽序列,發(fā)現(xiàn)它們在進化上似乎不具有保守性。但是,信號肽中的疏水片段比較重要,如果利用點突變將其中的疏水氨基酸換成親水氨基酸,信號肽的功能就會喪失。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院106含有信號肽的蛋白質一般能夠被分泌到細胞外,可能作為重要的細胞因子起作用,從而具有潛在的應用價值。聯(lián)網(wǎng)到“http://genome.cbs.dtu.dk/services/SignalP/”可進行蛋白質序列的信號肽分析。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院107蛋白質序列中含有的信號肽序列將有助于它們向細胞內特定區(qū)域的移動,例如前導肽和面向特定細胞器的靶向肽。在線粒體蛋白質的跨膜轉運過程中,通過線粒體膜的蛋白質在轉運之前大多數(shù)以前體形式存在,它由成熟蛋白質和N端延伸出的一段前導肽或稱引肽(leaderpeptide)共同組成。迄今已有40多種線粒體蛋白質前導肽的一級結構被闡明,它們約含2080個氨基酸殘基,當前體蛋白跨膜時,前導肽被一種或兩種多肽酶所水解轉變成為成熟蛋白質,同時失去繼續(xù)跨膜能力。前導肽一般具有如下性質:2023/2/1BIOINFORMATICS數(shù)理與生物工程學院108帶正電荷的堿性氨基酸(特別是精氨酸)含量

較為豐富,它們分散于不帶電荷的氨基酸序

列之間;缺失帶負電荷的酸性氨基酸;羥基氨基酸(特別是絲氨酸)含量較高;有形成兩親(即有親水又有疏水部分)螺旋結

構的能力。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院109和信號肽與跨膜區(qū)結構一樣,蛋白質的亞細胞定位往往也和該蛋白質的功能密切相關。Reinhardt等基于神經(jīng)網(wǎng)絡算法構建的蛋白質亞細胞定位數(shù)據(jù)庫(http://predict.sanger.ac.uk/nnpsl/nnpsl_mult.cgi)可用于對蛋白質序列進行亞細胞定位分析。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院1104.4.2蛋白質功能預測一般來說,對于蛋白質功能預測分析而言,最為重要的莫過于分析目的蛋白質是否和具有功能信息的已知蛋白質相似。其中主要有兩個策略進行:同源序列分析和功能區(qū)相關的保守序列特點分析。其一般的分析流程如圖4-20所示。圖4-20蛋白質序列分析的一般流程2023/2/1BIOINFORMATICS數(shù)理與生物工程學院112

基于序列同源性分析的蛋白質功能預測顯然,相似的序列很可能具有相似的功能。因此,蛋白質的功能預測最為可靠的方法是進行數(shù)據(jù)庫相似性檢索。此方面的具體內容可參見第三章。請記住重要的一點:至少80個氨基酸長度范圍內具有25%以上的序列一致性才提示可能的顯著性意義。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院113有多種不同的工具軟件可用于蛋白質序列的對庫檢索,有的慢而準確,有的快而低敏。最快的工具如BLASTP能夠很容易地發(fā)現(xiàn)顯著性片段,而無需使用十分耗時的BLITZ軟件。后者常常在當BLASTP和FASTA等軟件無法獲得顯著性結果時才使用。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院114在進行具體分析時,需要注意使用記分矩陣的重要性。使用不同的記分矩陣進行數(shù)據(jù)庫檢索具有以下理由:首先,所選擇的記分矩陣必須和序列匹配的同源性相對準確,例如,PAM250用于遠距離匹配(約25%一致性)、PAM40用于同源性較低的相關蛋白,BLOSUM62用于常規(guī)分析。其次,使用不同的記分矩陣能夠更好地揭示保守區(qū)域。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院115未知序列對庫檢索的一般分析策略如下:1)和運行BLASTP程序的服務器連接;2)將目的序列粘貼到序列輸入框中,選擇BLOSUM62記分矩陣運行BLASTP程序。NCBI的BLASTP程序要求輸入序列為FASTA格式,其他一些網(wǎng)站則要求純序列格式。3)如果BLASTP檢測到了高度同源的序列,將有可能提示目的序列的生物學功能;4)如果BLASTP未能獲得有意義的結果,試用FASTA。5)如果BLASTP和FASTA均未能獲得有意義的結果,則需求采用完全的Smith-Waterman算法對庫搜索以獲得有意義結果。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院116用戶可以使用NCBI/BLAST(http://www./blast/,圖4-21)、華盛頓大學的BLAST軟件(WU-BLAST2,http://www.ebi.ac.uk/Blast2/,圖4-22)和FASTA(http://www2.ebi.ac.uk/fasta3/,圖4-23)進行序列同源性檢索。圖4-21使用NCBI/BLASTP進行蛋白質序列對數(shù)據(jù)庫檢索的網(wǎng)絡界面圖4-22使用WU-BLAST2進行蛋白質序列對數(shù)據(jù)庫檢索的網(wǎng)絡界面圖4-23使用FASTA進行蛋白質序列對數(shù)據(jù)庫檢索的網(wǎng)絡界面2023/2/1BIOINFORMATICS數(shù)理與生物工程學院120

基于motif、結構位點、結構功能域數(shù)據(jù)庫的蛋白質功能預測通常,一條新的蛋白質序列很難僅僅通過序列對齊獲得足夠的功能信息。有時,蛋白質序列對齊能夠發(fā)現(xiàn)一些匹配片段,但是并不提示其功能信息。研究發(fā)現(xiàn),除多肽的切割加工和有限水解以外,蛋白質生物合成后活性調節(jié)的另外一種形式是化學修飾,包括蛋白質磷酸化和糖基化。磷酸化是蛋白質合成后廣泛存在的一種化學修飾,是控制酶活性的重要步驟。2023/2/1BIOINFORMATICS數(shù)理與生物工程學院121

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論