




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第五章 計(jì)算機(jī)在分子生物學(xué)中的應(yīng)用DNA雙鏈模型51 計(jì)算機(jī)在分子生物學(xué)中應(yīng)用的簡介 分子生物學(xué)研究的對象往往是大規(guī)模的實(shí)驗(yàn)數(shù)據(jù),利用手工計(jì)算來處理這些數(shù)據(jù)顯然是力不從心. 例如越來越多的物種的基因組將基本上完全地測定。那種傾畢生精力研究一個(gè)基因、一條代謝途徑、一種生理周期的時(shí)代已經(jīng)過去.genbank數(shù)據(jù)增長示意圖 那種傾畢生精力研究一個(gè)基因、一條代謝途徑、一種生理周期的時(shí)代已經(jīng)過去。人們正在闡明細(xì)胞內(nèi)的全部互相耦合的調(diào)控網(wǎng)絡(luò)和代謝網(wǎng)絡(luò),細(xì)胞間的全部信號傳導(dǎo)過程,從受精卵到成體的全部生理和病理的基因表達(dá)的變化等等。這一切都超出手工分析的可能性,數(shù)據(jù)的產(chǎn)生、搜集和分析,都必須依靠計(jì)算機(jī)和網(wǎng)絡(luò),
2、都必須發(fā)展數(shù)據(jù)庫、算法和程序。 計(jì)算機(jī)科學(xué)的發(fā)展及其在生物學(xué)領(lǐng)域的應(yīng)用,已經(jīng)成為生物學(xué)發(fā)展和進(jìn)步過程中不可替代的重要力量。計(jì)算機(jī)在分子生物學(xué)發(fā)展中的作用是無可替代的。 在分子生物學(xué)中,DNA、RNA和蛋白質(zhì)都是表現(xiàn)為特定的序列。不同生物的DNA或蛋白質(zhì)的相似性是多方面的,可能是核酸或氨基酸序列的相似性,也有可能是結(jié)構(gòu)的相似性。生物功能分子的序列測序與功能預(yù)測是從序列中發(fā)現(xiàn)基因的兩個(gè)層次。測序的大致步驟如下:取DNA目標(biāo)序列 ;查找開放閱讀框架(ORF)并將目標(biāo)序列翻譯成蛋白質(zhì)序列;據(jù)庫中進(jìn)行序列搜索;進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線(global alignment) ;查找基因家族
3、查找目標(biāo)序列中的特定模序 預(yù)測目標(biāo)序列結(jié)構(gòu) 獲取相關(guān)蛋白質(zhì)的功能信息把目標(biāo)序列輸入“提醒”服務(wù)器 521序列比較中的計(jì)算機(jī)技術(shù) 從生物學(xué)的角度而言,一個(gè)普遍的規(guī)律是:序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能。序列的比較一般不考慮空間結(jié)構(gòu)或功能的相似性。研究序列的相似性的另一個(gè)目的是通過序列的相似性,判別序列間的同源性,推測序列間的進(jìn)化關(guān)系。 序列比較的作用是:發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的信息,從而發(fā)現(xiàn)其中的相似性,找出序列間的共同區(qū)域,同時(shí)辨別序列之間的差異 5211、序列的相似性臺(tái)戲在計(jì)算機(jī)內(nèi)部,不管是DNA、RNA還是蛋白質(zhì),都是用特定的字符集來表示的。對于一種未知功能的生物分子,則可以通過將它的
4、序列與已知功能的分子的序列進(jìn)行比較來推斷。序列的相似性可以用定性的方法來描述,也可以用定量的方法表示。在討論到序列相似性的關(guān)系時(shí),經(jīng)常會(huì)遇到同源(homology)和相似(similarity)兩個(gè)概念。 所謂同源序列,簡單地說,是指從某一共同祖先經(jīng)趨異進(jìn)化而形成的不同序列。 相似性(similarity)和同源性(homology)是兩個(gè)完全不同的概念。 相似性概念的含義比較廣泛,除了上面提到的兩個(gè)序列之間相同堿基或殘基所占比例外,在蛋白質(zhì)序列比對中,有時(shí)也指兩個(gè)殘基是否具有相似的特性,如側(cè)鏈基團(tuán)的大小、電荷性、親疏水性等。 序列比較的基本操作是比對(align),它是一種關(guān)于序列相似性的定
5、性描述,反映的主要是在什么部位兩條序列相似或差異。如果一個(gè)比對方法能夠揭示兩條序列的最大相似程度或根本差異,就稱這個(gè)比對是最優(yōu)比對。 1.字符表和序列: 在計(jì)算機(jī)中處理生物功能分子的序列比對時(shí),將其序列抽象為字符串,這些字符串從一個(gè)特定的字符集合中抽取,這個(gè)字符集合稱為:字符表。 如教材中的表5.1和表5.2在分子生物學(xué)研究的一些場合,常常要用到子序列,如:分析功能基因或是保守序列,重復(fù)序列。生物序列中的子序列在形式上看起來同計(jì)算機(jī)數(shù)據(jù)結(jié)構(gòu)中的子串的概念很相近,但實(shí)際上子序列和子串還是有些不同的:子序列的范圍包含了子串,所有的子串都是子序列,但子序列不一定是子串。子序列可以通過對序列進(jìn)行選擇,
6、刪除等操作或取。例如:基因片段1的序列為:ATTTTGCCCTTA,基因片段2的序列是:AGCT,基因片段3的序列是:TTGC。則片段2是片段1的子序列,但2不是1的子串,片段3是片段1的子串。如果有兩個(gè)生物分子序列分別為t和s,則當(dāng)t為s的子串時(shí),稱s是t 的超串。如果t是s 的子串,也稱t是s的連續(xù)子序列。生物功能分子中的序列比對根據(jù)比較的范圍不同可以分成全局比較和局部比較兩種。全局比較指的是比較兩條完整的序列,而局部比較指的是找出最大相似的子序列。對于兩條序列的比對,根據(jù)不同的應(yīng)用場合,常常將序列比較分成以下幾種基本操作:(1)判斷一個(gè)序列是不是另一個(gè)序列的子序列;(2)尋找兩個(gè)序列中的
7、最大相似子序列;(3)尋找兩個(gè)相似序列中的細(xì)微差別;(4)判斷一個(gè)序列的特定部份(如前綴或后綴)與另一個(gè)序列的特定部份是否相同。其中,(1)和(3)是全局比較,(2)和(4)是局部比較。2編輯距離對于兩條DNA序列,有時(shí)很難看出它們有相似的地方,但是只要對其中的一條序列進(jìn)行了一些簡單的操作,就會(huì)發(fā)現(xiàn)它們之間有很多的相似之處。例如,有以下兩個(gè)英文單詞“tomorrow”和“sorrow”,我們可以很清楚的看到,只要將sorry錯(cuò)移3個(gè)位置,并對起來,就可以發(fā)現(xiàn)它們的相似性。tomorrow tomorrowsorrow -sorrow移位前 移位后對于生物序列,有兩種方法可以用來定量的表示兩條序
8、列的相似程度:一種方法是利用相似度函數(shù)來說明,相似度越大,說明兩條序列相似的程度越大;另一種方法就是利用兩個(gè)序列間的距離來說明,距離越大,說明兩個(gè)序列的相似程序越小。一般說來,相似度較為靈活,所以應(yīng)用的較多兩個(gè)序列間的距離,可以用海明距離表示。但對于不同長度的序列用海明距離表示起來不是很精確。而且在實(shí)際的實(shí)驗(yàn)中,一些生物功能分子如DNA往往會(huì)發(fā)生像刪除或插入一個(gè)堿基這樣的錯(cuò)誤,這時(shí)如果用海明距離來表示時(shí),就會(huì)產(chǎn)生較大的誤差。為了克服海明距離的缺陷,引入了編輯距離的概念,所謂編輯距離(edit distance),指的是:一個(gè)字符串變到另一個(gè)字符串時(shí)插入、刪除和替換的最少的字符個(gè)數(shù)。 利用編輯距
9、離來表示兩個(gè)序列的比對時(shí),一般說來有如下的字符編輯操作:設(shè)有兩個(gè)序列s和t,用-代表空位(或空缺,space)則有如下的操作:Match(a,a)-字符匹配;Delete(a,-)-從s序列中刪除一個(gè)字符或在t序列中插入一個(gè)空位;Replace(a,b)-以t中的字符b替換s中的字符a,ab;Insert(-,b)-在s序列中插入空位字符,或在t序列中刪除一個(gè)字符b。進(jìn)行序列比較最簡單的方法就是利用點(diǎn)標(biāo)法(Fitch,1969)來實(shí)現(xiàn)。這種比較方法的原理是:將兩條待比較的序列分別放在二維作標(biāo)的X軸上(序列的方向是自左向右)和Y軸上(序列的方向是自下而上)。當(dāng)對應(yīng)的行與列的字符匹配時(shí),則在作標(biāo)軸
10、上給出相應(yīng)的記號,逐個(gè)比較所有的字符對,最終形成若干個(gè)匹配子串。如下所示:如有兩個(gè)序列s,t,序列分別為:s: ATCG t:ATGC4.序列比對的數(shù)學(xué)方法(1)打分矩陣打分矩陣被廣泛的用于評價(jià)序列比對的質(zhì)量,通常采用得分(+)、無分(0)和罰分(-)來進(jìn)行綜合的評價(jià)。可以定義一個(gè)打分函數(shù),用它來表示在序列比對中不同類型的編輯操作所需要的代價(jià)。 假定有一字符表,字符a,b滿足:a, b;則有如下定義:分別對應(yīng)于得分、無分和失分的情況。在兩條序列s和t進(jìn)行比對時(shí)的得分等于將s轉(zhuǎn)化為t所用的編輯操作的得分總和;它們間的最優(yōu)比對是可能的比對中得分最高的一個(gè)比對;s和t的真實(shí)的編輯距離應(yīng)當(dāng)是在打分函數(shù)
11、值最大時(shí)的距離。這樣,進(jìn)行序列比對的目的就是尋找一個(gè)打分函數(shù)值最大的比對。(2)核酸打分矩陣與蛋白質(zhì)打分矩陣: 核酸與蛋白質(zhì)都是常見的生物功能分子,在分子生物學(xué)研究中,經(jīng)常遇到要對它們的序列進(jìn)行比對的場合。前面所說的打分矩陣方法過于簡單,不能考慮到字符替換后實(shí)際的生物意義。 特別對于蛋白質(zhì)序列,有些氨基酸的取代是很容易產(chǎn)生而且不會(huì)對蛋白質(zhì)的特性造成太大的影響。也就是說,不同情況下的替代是不等效的。所以,為了區(qū)分不同情況下替代對生物功能分子所起的作用,人們提出了核酸與蛋白質(zhì)的打分矩陣。核酸打分矩陣(i)等價(jià)矩陣給出了一種最簡單的核酸打分矩陣(等價(jià)矩陣),它的設(shè)計(jì)的原理是,只有相同核苷酸匹配的情況
12、下打分為“1”,其它的情況下,打分均為“0”。這種矩陣過于簡單,在實(shí)際的應(yīng)用中很少用到。ATGCA1000T0100G0010C0001 核酸的等價(jià)矩陣 (ii)轉(zhuǎn)換-顛換矩陣 眾所周知,核酸的堿基可以分成兩大類:一類是嘌呤,一類是嘧啶。嘌呤的堿基有兩個(gè)環(huán)狀結(jié)構(gòu),而嘧啶的堿基只有一個(gè)環(huán)。根據(jù)這個(gè)特點(diǎn),如果DNA堿基的變化保持環(huán)數(shù)不變,則稱為轉(zhuǎn)換(transition),如G變成A,如果環(huán)數(shù)發(fā)生變化,則稱為顛換(transversion),如A轉(zhuǎn)成C。 根據(jù)這個(gè)特性,當(dāng)兩個(gè)堿基的替換發(fā)生顛換時(shí),它的打分是-5分;當(dāng)發(fā)生轉(zhuǎn)換時(shí),它的打分是-1分;發(fā)生匹配時(shí)為1分。從而,也可以得到一個(gè)矩陣,通常稱它
13、為轉(zhuǎn)換-顛換矩陣。 ATGCA1-5-5-1T-51-1-5G-5-11-5C-1-5-51轉(zhuǎn)移-顛換矩陣 (iii)BLAST矩陣 BLAST(basic local alignment search tool)是一種基本的局部對位排列搜索工具,這里也提供了一個(gè)相似性記分矩陣。這個(gè)矩陣也相對簡單,如果等比較的兩個(gè)核酸序列是相同的,則打5分,反之,得分為-4分。ATGCA5-4-4-4T-45-4-4G-4-45-4C-4-4-45 BLAST矩陣 2)蛋白質(zhì)打分矩陣(i)等價(jià)矩陣:假設(shè)蛋白質(zhì)的字符表如教材上表5.1所示,則可以構(gòu)建如下的等價(jià)矩陣(如教材上表5-6所示)。它的規(guī)則是當(dāng)組成蛋白質(zhì)
14、的兩種氨基酸相匹配時(shí),打分為“1”,反之,均為“0”。 (ii)疏水矩陣蛋白質(zhì)由于它的氨基酸殘基上的電荷不同,可以分成極性氨基酸、帶電氨基酸和疏水氨基酸三大類。所謂的疏水指的是氨基酸與水的親和力的很小,這主要是因?yàn)槭杷詮?qiáng)的氨基酸中的原子間僅靠非極性共價(jià)鍵相連,所以,這類氨基酸分子缺少與水分子共同作用的基礎(chǔ)。而與疏水性氨基酸相對應(yīng)的是親水性氨基酸,這些氨基酸中的原子存在極性的共價(jià)鍵,從而可以與水互相溶解。根據(jù)氨基酸的親水或疏水,也可以生成一個(gè)矩陣,稱為疏水矩陣,它的設(shè)計(jì)思想是:如果一個(gè)氨基酸殘基取代另一個(gè)氨基酸殘基后,疏水性沒有發(fā)生太大的變化,就打分高些;反之,如果替換后,疏水性發(fā)生了較大的變
15、化,打分就低些。如下圖所示:蛋白質(zhì)疏水矩陣示意圖(iii)GCM矩陣生命是不斷進(jìn)化的,在研究分子水平的進(jìn)化時(shí),常常用到GCM矩陣,它可以方便地描述分子的進(jìn)化距離,并可以用來繪制進(jìn)化樹。但在蛋白質(zhì)比對中較少直接用到。GCM矩陣的設(shè)計(jì)思想是:計(jì)算一個(gè)氨基酸殘基轉(zhuǎn)變成另一個(gè)氨基酸殘基所需的密碼子變化的次數(shù),將變化的次數(shù)作為對應(yīng)矩陣的元素的值。如果一個(gè)氨基酸的殘基只要有一個(gè)堿基發(fā)生變化,那么這兩個(gè)氨基酸的替換代價(jià)即為1;如果是發(fā)生了兩個(gè)堿基的變化,則為2,其它依此類推。 iv)Dayhoff突變數(shù)據(jù)矩陣(PAM矩陣)一個(gè)PAM的進(jìn)化距離定義為每100個(gè)氨基酸中發(fā)生一個(gè)點(diǎn)突變的概率。在這個(gè)矩陣中,大于0
16、的值表明發(fā)生的突變的可能性較大,等于0是中性的(隨機(jī)突變),小于0的則表示發(fā)生突變的可能性較小。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位,即1%的氨基酸發(fā)生改變,但實(shí)際上并不可能說經(jīng)過100次變化,每個(gè)氨基酸都會(huì)發(fā)生變化。PAM有一系列的的替換矩陣,每個(gè)矩陣用于特定的進(jìn)化距離的序列。但是一般說來,只有當(dāng)置換速率通過至少具有85%一致性的序列對位排列才能獲取。PAM250矩陣V)模塊替換矩陣(BLOSUM矩陣)Henikoff(1992)首先從BLOCKS數(shù)據(jù)庫的對位排序列塊中導(dǎo)出了一級置換矩陣,稱為BLOSUM矩陣。它是從蛋白質(zhì)序列塊(短序列)比對而推導(dǎo)出來的,它用關(guān)系較遠(yuǎn)的序列來獲取矩陣元素;而低階
17、BLOSUM矩陣更多是用來比較親緣較遠(yuǎn)的序列。BLOSUM62矩陣圖 小結(jié):(I)基于“等價(jià)矩陣”的記分 這種記分方法,只考慮序列是否匹配,匹配的位點(diǎn)記正分(通常為1),非匹配的位點(diǎn)記0分。這種方法的優(yōu)點(diǎn)是:簡單明了,適用于高度相似性序列;這種方法的缺點(diǎn)是:沒有考慮非匹配位點(diǎn)間的不等價(jià)問題,在對相似性較低的序列進(jìn)行對位排列時(shí),效果尤差。(II)基于“化學(xué)相似性”的記分方式 該方法是對一致性記分方法的局部改進(jìn)。例如,Mclachlan(1972)和Feng et al。(1984)結(jié)合氨基酸的性質(zhì)(如極性、電荷、大小和結(jié)構(gòu)特征),對不同的氨基酸進(jìn)行了加權(quán)。這種方法的優(yōu)點(diǎn)是考慮了氨基酸和蛋白質(zhì)的結(jié)
18、構(gòu)與性質(zhì);缺點(diǎn)是并非所有的蛋白質(zhì)的結(jié)構(gòu)與功能的改變都可以用簡單的記分描述。(III)基于“遺傳密碼”的記分 該方法考慮到當(dāng)一個(gè)氨基酸轉(zhuǎn)換成另一個(gè)氨基酸時(shí),在基因組水平上堿基變化的最小數(shù)目。這種方法的優(yōu)點(diǎn)是它充分考慮到了在分子水平上的變化,具有一定的分子生物學(xué)基礎(chǔ)。但是,它忽略了隨機(jī)因素,例如:堿基變化的數(shù)目并不是氨基酸序列間相似性的惟一決定因素。(IV)基于“實(shí)驗(yàn)觀察”的記分 這種方法考慮了對位排序中所實(shí)際觀察的頻率,從而更有助于解釋序列間的進(jìn)化關(guān)系。Dayhoff和BLOSUM矩陣就屬于這樣的矩陣。Dayhoff矩陣基于進(jìn)化的突變模型基于蛋白質(zhì)家族進(jìn)化過程中從一個(gè)共同祖先分化的蛋白質(zhì)的首次變
19、化的。而BLOSUM矩陣忽略近端和遠(yuǎn)端的關(guān)系,這稱為蛋白質(zhì)進(jìn)化的星狀模型。Dayhoff對相關(guān)序列中所有氨基酸位置進(jìn)行計(jì)分,而BLOSUM矩陣則是基于區(qū)塊中置換和保守位置。因而,Dayhoff模型可用于尋找蛋白質(zhì)的進(jìn)化起源,而BLOSUM模型用于發(fā)現(xiàn)蛋白質(zhì)的保守域。計(jì)算機(jī)在生物序列比對處理中起到的作用計(jì)算機(jī)在生物序列比對中起到的作用是顯著的:1.比對算法是比效率高低的重要基礎(chǔ)全局比對和局部比對各有其相應(yīng)的算法2.數(shù)據(jù)存儲(chǔ)的形式和數(shù)據(jù)壓縮三角形矩陣,稀疏矩陣還有序列的壓縮算法可以節(jié)省空間,降低大量數(shù)據(jù)存放時(shí)要占用的大量空間5212 序列的兩兩比對在生物學(xué)中,對各種生物功能分子的序列進(jìn)行分析是一件
20、非?;镜墓ぷ鳌T谶z傳物質(zhì)長期的演化過程中,一些序列在進(jìn)化的過程中不免發(fā)生一些變化。在進(jìn)行比對時(shí),這些序列就不能進(jìn)行精確的匹配,但是他們具有一定的相似性。我們應(yīng)該如何判定序列之間的這種相似程度?對于這種情況,生物學(xué)家提出了一種用來評定序列相似性的方法,稱為記分函數(shù)的方法。1、兩兩比對的基本算法 進(jìn)行序列的兩兩比對最直接的方法就是先生成兩條待比較序列的所有可能比對,然后分別計(jì)算得分函數(shù)的值,在這些結(jié)果中尋找一個(gè)值最大的比對(也就是代價(jià)最小的比對)。生物序列比對算法實(shí)際上常常用到的算法是著名的N-W算法與S-W算法,它們都是動(dòng)態(tài)規(guī)劃算法。其中,N-W算法常用于序列的全局比對,S-W算法常用于序列的
21、局部比對。(1)N-W算法 1970年,Needleman和Wunsch提出了著名的Needleman-Wunsch算法,簡稱為:N-W算法。Needleman-Wunsch算法是一種整體聯(lián)配(global alignment)算法,最佳聯(lián)配(兩條蛋白質(zhì)序列具有最多匹配殘基)中包括了全部的最短匹配序列。這一算法是為氨基酸序列發(fā)展的, 算法最初尋求的是使兩條序列間的距離最小。盡管這類距離的元素是以一種特定的方式定義的,但該算法的良好特性在于它確定了最短距離。這是一個(gè)動(dòng)態(tài)規(guī)劃(dynamic programming)的方法。 該算法可以用代數(shù)形式加以描述。設(shè)有兩個(gè)序列S和T,Si和Tj(0iLen
22、gth(S),0jlength(j),length表示求序列的長度)都屬于某個(gè)字符集,這兩個(gè)序列間的距離可以用記分函數(shù)(S,T)表示。通過評價(jià)序列S中的前i個(gè)位置和序列T中的前j位置的距離(Si,Tj),遞歸得到距離(S,T)。由于S和T的長度為m=Length(S)和n=Length(T),所以它的期望距離是(Sm,Tn)。 在單元(i,j)內(nèi),到達(dá)該單元距離增加的三種可能事件是:從單元(i-1,j)向(i,j)方向垂直移動(dòng),相當(dāng)于在T序列中插入一個(gè)空位使相似序列延伸,即:T序列由S序列中的缺失產(chǎn)生,這一事件的權(quán)重記作W_(Si);從單元(i,j-1)向(i,j)方向水平移動(dòng),相當(dāng)于在序列T
23、中增加一個(gè)空位使得序列延伸,即:T序列由Tj插入到S序列產(chǎn)生,這一事件權(quán)重記作W+(Tj);從單元(i-1,j-1)向(i,j)對角線移動(dòng),相當(dāng)于增加Si與Tj使得相似序列延伸,即: S序列的Si由T序列的Tj取代所得。這一事件的權(quán)重記為W_(Si,Tj);所以,單元(i,j)的距離可以看作是三個(gè)相鄰單元的距離和相應(yīng)的權(quán)重的和的最小者。 初始條件為:(S0,T0)=0S-W例題 將待比較的兩條序列放在矩陣的兩個(gè)維上,并按照公式對矩陣進(jìn)行初始化打分。第一行分別表示S序列的前綴空位與T序列的前面連續(xù)j個(gè)字符組成的前綴的比對得分;第一列則表示T序列的前綴空位與S序列的前面連續(xù)i個(gè)字符組成的前綴的比對
24、得分,如下圖示:t s A C A C A C T A 0-1-2-3-4-5-6-7-8A -1 G -2 C -3 A -4 C -5 A -6 C -7 A -8 待比較序列在這里規(guī)定,當(dāng)不匹配時(shí)分?jǐn)?shù)為0,匹配時(shí)的分?jǐn)?shù)為1,產(chǎn)生空位時(shí)分?jǐn)?shù)為-1。 表中的一個(gè)單元可以從(至多)三個(gè)相鄰的單元達(dá)到。我們把到右下角單元距離最大的方向看作相似序列延伸的方向。等距離時(shí)意味著存在兩種可能的方向。將這些方向記錄下來,并在研究了所有的單元之后,沿著記錄的方向就有一條路徑可從右下角(兩個(gè)序列的末端)追蹤到左上角 (兩個(gè)序列的起點(diǎn)),由此所產(chǎn)生的路徑將給出的最優(yōu)序列聯(lián)配,本例中的路徑如下圖中的箭頭方向所示。
25、這里,對角線表示匹配或替換發(fā)生的情況;水平線表示插入;垂直線表示刪除。則本例的路徑可以讓我們得到如下的序列比對,如圖所示我們可以看出,N-W算法是一種動(dòng)態(tài)規(guī)劃算法。這種算法是在打分矩陣的基礎(chǔ)上進(jìn)行推導(dǎo)的,得分值表示序列間的相似程序,它是一種全局性的比對算法。對于兩條序列的比對采用N-W算法時(shí),序列的長度也有著很大的影響。 設(shè)MARK(S,T)表示兩個(gè)長度各為m和n的序列的相似性打分,如果MARK(S,T)=99,則兩條序列共有99個(gè)字符是一致的,如果m=n=100的話,說明這兩條序列是很相似的;反之,如果m=n=1000,則僅有10%的字符相同。所以,在實(shí)際序列比較時(shí),使用相對的長度得分就更加
26、的有意義了,可以定義如式:用Sim(s,t)作為衡量序列相似性的指標(biāo)。(2)S-W算法Smith和Waterman在Needleman-Wunsch算法的基礎(chǔ)上進(jìn)行改進(jìn),提出序列局部比對算法;后來其他人又進(jìn)一步改進(jìn),形成改良Smith-Waterman算法,該算法將尋找多種最好的但不相互交叉的比對方式作為結(jié)果。 對于兩個(gè)序列S和T,Si和Tj(0iLength(S),0jlength(j),length表示求序列的長度)都屬于某個(gè)字符集,對于中的任何元素和空符號,它們之間都有一個(gè)記分值,用記分函數(shù)(x,y)表示,F(xiàn)(i,j)表示序列S的前綴S1S2Si-1Si和序列T的前綴T1T2。Tj-1T
27、j之間的最優(yōu)相似性比較得分,則有如下公式 Smith-Waterman算法先用迭代方法計(jì)算出兩個(gè)序列的所有可能相似性比較的分值,然后通過動(dòng)態(tài)規(guī)劃的方法回溯尋找最優(yōu)相似性比較,從而我們最終可以找出i*和j*,使得F(i*,j*)=maxF(i,j) 例如有如下問題:例 設(shè)有S = “ a b c x d e x ”,T= “ x x x c d e ” ,其對應(yīng)的記分函數(shù)(x,y)分別如下: 發(fā)生匹配時(shí):(x,x)=2, 不匹配或產(chǎn)生空位: (x,y)= (x,-)= (-,y)=-1。 試求解S和T的最優(yōu)局部子序列。ji01x2x3x4c5d6e000000001 a02 b03 c04 x0
28、5 d06 e07 x0初始化矩陣圖 最終,可以反推出它的最佳路徑,結(jié)果是:S = “ a b c x d e x ”,T= “ x x x c d e ”的局部最優(yōu)聯(lián)配是: c x d e 和 c - d e或 x - d e 和 x c d e (3)MUMmer算法 MUMmer算法是Delcher于1999年提出的,它是一種基于后綴樹的數(shù)據(jù)結(jié)構(gòu)的比對算法。MUM的意思是最大唯一匹配(Maximal Unique Match)。(4)PattenHunter算法 2002年Bin Ma等人提出了序列搜索的PatternHunter算法,該算法創(chuàng)建了一個(gè)新穎的匹配模型,不僅提高了匹配的敏感
29、度,而且大大降低了同源搜索的匹配時(shí)間 2序列兩兩比對的啟發(fā)式算法(1)BLAST算法BLAST 是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫搜索程序。它是“局部相似性基本查詢工具”(Basic Local Alignment Search Tool)的 縮寫。它包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。 程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列Bla
30、stx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中的序列逐一搜索。Tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對。主要的BLAS程序 BLAST算法的基本思想是:通過產(chǎn)生數(shù)量較少的但質(zhì)量更好的匹配片段來提高速度其算法描述如下:首先是在數(shù)據(jù)庫中找出與查詢序列相同的匹配片段(也叫命中片段HIT),且這一局部片段中不含空位,并建立查詢表記錄下該片段的位置;一個(gè)匹配字串選中后,程序會(huì)進(jìn)行沒有空位的局部延伸,根據(jù)匹配情況計(jì)算分值,當(dāng)比對延
31、伸時(shí)遇到不匹配片段則賦予負(fù)分,使得比對的分值下降,直到用動(dòng)態(tài)規(guī)劃算法得到某個(gè)局部最大分值為止,也即高分片段對HPS(high sequence pairs);設(shè)定一個(gè)統(tǒng)計(jì)顯著性閥值E,統(tǒng)計(jì)顯著性大于E的HSP將被舍棄,剩下的HSP即為高質(zhì)量的匹配片段對。BLAST算法流程圖 (2)FastA算法 FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識別與代查序列相匹配的很短的序列片段,稱為k-tuple。 3、空位處罰的處理算法所謂空位指的是序列中任意連續(xù)的盡可能長的空格,空位的引入是為了補(bǔ)償那些插入或缺失,但是在序
32、列的比對中引入的空位不能太多,否則會(huì)使序列的排列變得面目全非。每引入一個(gè)空位,比對的分值都會(huì)有所扣除,常見的罰分規(guī)則主要有兩種:空位權(quán)值恒定模型和仿射空位處罰模型??瘴粰?quán)值恒定模型:在每個(gè)空位中的空格的分值為零, 即:(x,-)= (-,y) = 0。其中S和T分別為S和T加入空位后的序列,|S| = |T| = l,Wg為開放一個(gè)空位的罰分。(II) 仿射空位處罰模型:這是最常用的一種罰分規(guī)則。空位處罰函數(shù)依賴于空位中空格的數(shù)量:用一個(gè)附加的罰分比例去乘空位的長度,其中有兩個(gè)參數(shù),Wg表示空位開放處罰,Ws表示空位延伸處罰。仿射處罰函數(shù)可表示為:Wg+qWs,q表示某一個(gè)空位的長度。這樣比對
33、的相似度:其中S和T分別為S和T加入空位后的序列,|S| = |T| = l。實(shí)際上空位權(quán)值恒定模型是仿射空位處罰模型的一個(gè)特例,即Ws = 0??瘴惶幚淼乃惴ǔ跏紬l件: V(0, 0) = 0; V(i, 0) = E(i, 0) = Wg + iWs; V(0, j) = F(0, j) = Wg + jWs; 遞歸條件: V(i, j) = max G(i, j), E(i, j), F(i, j); G(i, j) = V(i-1, j-1) +(Si, Tj); E(i, j) = max E(i, j-1) + Ws, V(i, j-1) + Wg + Ws F(i, j) = m
34、ax F(i-1, j) + Ws, V(i-1, j) + Wg + Ws。 公式E(i, j)可以理解為從以下兩項(xiàng)中取最大值:在已存在的空位后面添加一個(gè)空格或者重新開放一個(gè)空位。公式F(i, j)的表示與此相似。從算法里可以看出,利用動(dòng)態(tài)規(guī)劃計(jì)算序列最優(yōu)聯(lián)配的算法的復(fù)雜度分析:時(shí)間復(fù)雜度為O(nm),空間復(fù)雜度為O(n+m)。多序列比對有時(shí)用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對一個(gè)基因家族的特征有一個(gè)簡明扼要的了解。與雙序列比對一樣,多序列比對的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上 三個(gè)序列的最佳比對 利用標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃算法,則每個(gè)節(jié)點(diǎn)的計(jì)算量為2k-1
35、多序列比對時(shí)每個(gè)節(jié)點(diǎn)計(jì)算量的示意圖 (1)漸進(jìn)比對算法多序列比對的絕大多數(shù)方法都是基于漸進(jìn)比對(progressive alignment)的概念。漸進(jìn)比對的思想依賴于使用者用作比對的蛋白質(zhì)序列之間確實(shí)存在的生物學(xué)上的或者更準(zhǔn)確地說是系統(tǒng)發(fā)生學(xué)上的相互關(guān)聯(lián)。漸進(jìn)比對是最常用的多序列比對方法,其基本思想是:要比對的序列是進(jìn)化相關(guān)的,因此可以按著序列的進(jìn)化順序,由近至遠(yuǎn)將序列或子比對結(jié)果按雙重比對(pairwise alignment)算法逐步進(jìn)行比對,重復(fù)這一過程直到所有序列都加入為止這類算法的主要優(yōu)點(diǎn)是:簡單、快速;缺點(diǎn)是:在比對初期引進(jìn)的空位插入錯(cuò)誤無法在比對后期因加入其它序列而改正,易于陷
36、入局部最優(yōu)解(I)CLUSTAL算法CLUSTAL算法是一個(gè)最廣泛使用的多序列比對程序,已經(jīng)有十多年的歷史。CLUSTAL算法所提供的是全局序列比對算法,這種算法同最初的啟發(fā)式算法有所不同。CLUSTAL W是這個(gè)算法較新的的應(yīng)用軟件系統(tǒng),CLUSTAL X則提供了圖形用戶界面,便于用戶使用。下面是CLUSTAL W算法的大至步驟對所有序列進(jìn)行兩兩比對,并由此計(jì)算出距離矩陣;基于距離矩陣,利用NJ(neighbour-join-method)方法構(gòu)建系統(tǒng)先導(dǎo)樹;依據(jù)指導(dǎo)樹的分支順序,由關(guān)系最近的兩個(gè)序列開始進(jìn)行比對,出現(xiàn)在比對中的空位保持固定不變;由近至遠(yuǎn),逐步添加序列,直到所有序列全部加入為
37、止,從而構(gòu)成一個(gè)系統(tǒng)發(fā)育樹。Clustal W 對于親緣關(guān)系較近的序列比對效果較好,但是對于分歧較大的序列,比對的準(zhǔn)確率明顯降低(II)TCoffe算法TCoffee是另一個(gè)有代表性的漸進(jìn)比對算法,它的主要特點(diǎn)是將序列的兩兩局域及全局比對結(jié)果收集在一起,做成一個(gè)擴(kuò)展比對信息庫再利用擴(kuò)展比對信息庫中提取的信息取代替代矩陣進(jìn)行漸近比對,使得在每一步漸近比對過程中用到的是所有序列之間的關(guān)系信息,而不只是僅考慮當(dāng)前要比對的序列信息,從而在一定程度上提高了比對準(zhǔn)確率,尤其是對于存在大量空位插入的情況,效果更為明顯T-coffee算法中最關(guān)關(guān)鍵的兩個(gè)因素是:構(gòu)建擴(kuò)展比對信息庫和優(yōu)化。它的算法示意圖如下:其
38、中,基本庫是建立在一系列待比較序列的兩兩比對的基礎(chǔ)上的(這種比對有可能是全局的比對,也有可能是局部的比對)。每種比對結(jié)果在基本庫中的權(quán)重是不同的,我們需要對所得的比對結(jié)果進(jìn)行分析,并對每種結(jié)果給出一個(gè)權(quán)重。T-coffee的時(shí)間復(fù)雜度大至在O(N3L)(其中,L是序列的平均長度) (III)DIALIGN算法DIALIGN算法 是基于片斷一片斷的局域多序列比對算法,它首先找出無空位的保守片段對(相當(dāng)于點(diǎn)矩陣中的對角線);然后為每一保守片段對賦予一個(gè)權(quán)重w 用以評價(jià)其生物意義,并找出具有最大加權(quán)總和的相容片斷對搜集(consistent collection of diagonals),這些片段
39、都滿足相容性準(zhǔn)則,即這些片段對可以被排序,而不會(huì)相互重疊;利用貪婪法將對角線依據(jù)分值高低逐步聯(lián)配(assemble)成多序列比對;在序列中加入空位直到所有對角線相關(guān)的殘基都被適當(dāng)安置由于以保守片斷作為考慮問題的出發(fā)點(diǎn),自然形成比對的空位位數(shù)及空位位置,從而避免了序列比對中的一個(gè)最為困擾的問題:空位罰分的設(shè)定(I)基于遺傳算法的多序列比對SAGA算法基于遺傳算法的多序列比對SAGA算法 將序列集中不等長的序列以兩端加空位方式補(bǔ)齊,構(gòu)造初始群體中的個(gè)體;共設(shè)有交叉,加空位,移動(dòng)空位等22個(gè)遺傳算子,并根據(jù)上一代算子所起的作用,給其以一定的權(quán)值,根據(jù)權(quán)值的大小動(dòng)態(tài)決定這一代是否使用該算子;選用WSP
40、度量作為適應(yīng)度函數(shù)該算法的優(yōu)點(diǎn)是:可以對任意多個(gè)序列同時(shí)比對,而不會(huì)受到限制主要缺點(diǎn)是速度慢,易于陷入局域優(yōu)化解(II)Prrp迭代比對算法 Prrp這是一個(gè)著名的迭代比對算法,其基本思想是:將一個(gè)序列集隨機(jī)地分為兩組,然后用雙重動(dòng)態(tài)規(guī)劃比對算法再將這兩組序列合并起來對于不同的隨機(jī)分組重復(fù)這種兩組比對過程,直到滿足終止條件為止具體算法為:從一個(gè)多序列比對開始(這一比對可以由任意簡單方法而得到,并做為這個(gè)算法的種子),以該比對中任意兩個(gè)序列的距離構(gòu)造一棵系統(tǒng)發(fā)育樹,并計(jì)算所有序列的的權(quán)重;以WSP分值優(yōu)化兩組比對;再以該比對作為種子重復(fù)進(jìn)行上述過程,直到權(quán)重w 收斂為止(III)Muscle算法
41、Muscle算法 以系統(tǒng)發(fā)育樹作為分組依據(jù),使得分組迭代更為合理,該算法主要由三部分組成):首先初步、快速地利用漸進(jìn)比對算法構(gòu)建一個(gè)多序列比對結(jié)果MSA1;然后以這個(gè)比對為基礎(chǔ),計(jì)算兩兩序列的距離,重新用漸進(jìn)比對算法構(gòu)建多序列比對MSA2;最后根據(jù)指導(dǎo)樹的分支點(diǎn),將序列分為兩組(profile),通過重新比對這兩個(gè)profile,構(gòu)建一個(gè)新的多序列比對MSA3,若該比對的SP分值有改善則保留,否則刪除該比對結(jié)果;重復(fù)執(zhí)行第三部分,直到滿足事先規(guī)定的結(jié)束條件為止由于有導(dǎo)向的分組,使得Muscle算法的準(zhǔn)確率高于Prrp。53分子生物學(xué)信息中心及其數(shù)據(jù)庫近20年來,有關(guān)分子生物學(xué)的大規(guī)模研究合作項(xiàng)
42、目(如HGP等)在世界范圍內(nèi)開展起來。這些跨單位,跨地區(qū)甚至跨國的科研協(xié)作均要求在保證實(shí)驗(yàn)數(shù)據(jù)可靠性與完整性的前提下,及時(shí)進(jìn)行信息的共享。 分子生物學(xué)數(shù)據(jù)庫中數(shù)據(jù)的增長速度是十分迅速的作為分子生物學(xué)的數(shù)據(jù)庫,應(yīng)當(dāng)要滿足以下的特點(diǎn):時(shí)間性注釋 支撐數(shù)據(jù) 數(shù)據(jù)質(zhì)量 集成性 生物分子數(shù)據(jù)庫可以分成一級數(shù)據(jù)庫和二級數(shù)據(jù)庫兩大類:一級數(shù)據(jù)庫:數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋 二級數(shù)據(jù)庫:對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的 。1、 世界上主要的分子生物學(xué)信息中心與它們的數(shù)據(jù)庫介紹現(xiàn)階段建立的分子
43、數(shù)據(jù)庫種類繁多,內(nèi)容廣泛;并且隨著網(wǎng)絡(luò)技術(shù)的普及,分子生物學(xué)信息系統(tǒng)大都實(shí)現(xiàn)了網(wǎng)絡(luò)化;數(shù)據(jù)庫中的信息量也呈爆炸性的增長;數(shù)據(jù)庫的相關(guān)數(shù)據(jù)操作算法也不斷增加。(1)歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL(The European Molecular Biology Laboratory) EMBL的主頁:http:/www.embl-heidelberg.de/ExternalInfo/public_relations/contents.html如圖示: EMBL主頁 EMBL的數(shù)據(jù)庫主要是EMBLEBI, EBI是一個(gè)非營利性的學(xué)術(shù)機(jī)構(gòu),它是European Molecular Biology Labo
44、ratory(EMBL)組成的一部分。 BI的網(wǎng)址是:http:/www.ebi.ac.uk/embl/ ,它的主頁如圖示 EBI 數(shù)據(jù)庫 (2)美國國立生物技術(shù)信息中心(National Center for Biotechnology In-formation,NCBI) 網(wǎng)址:http:/Ncbi主頁NCBI的主要數(shù)據(jù)庫是GeneBank, 它由美國衛(wèi)生與人類服務(wù)部注冊。在1992年10月,NCBI承擔(dān)起對GenBank DNA序列數(shù)據(jù)庫的責(zé)任。NCBI受過分子生物學(xué)高級訓(xùn)練的工作人員通過來自各個(gè)實(shí)驗(yàn)室遞交的序列和同國際核酸序列數(shù)據(jù)庫(EMBL和DDBJ)交換數(shù)據(jù)建立起數(shù)據(jù)庫。 Gene
45、Bank中的EnterZ主頁 (3) 日本國立遺傳研究所(National Institute of Genetics,NIG)日本國立遺傳研究所作為一所日本國內(nèi)進(jìn)行遺傳多樣性研究的中央研究機(jī)構(gòu)始建于1949年。 國立遺傳研究所還逐漸成為日本國內(nèi)遺傳學(xué)(如突變研究、克隆,致病菌等)的信息資源中心,而且,還是著名的核酸數(shù)據(jù)庫DDBJ的開發(fā)與維護(hù)單位。它的主頁是:http:/www.nig.ac.jp/section/index.html 日本國立遺傳研究所主頁 日本國立遺傳研究中最著名的數(shù)據(jù)庫當(dāng)屬DDBJ(DNA Data Bank of Japan),它的主頁是:http:/www.ddbj.
46、nig.ac.jp/ DDBJ數(shù)據(jù)庫主頁 54 計(jì)算機(jī)在HGP中的應(yīng)用541有關(guān)基因的概念 從分子生物學(xué)的角度出發(fā),基因指的是負(fù)載特定生物遺傳信息的DNA分子片段,基因在一定條件下能夠表達(dá)這種遺傳信息,產(chǎn)生特定的生命功能。 (1)基因的分類:基因的分類根據(jù)不同的劃分標(biāo)準(zhǔn)可以劃分成不同的種類。按照基因的功能分,可以將基因分成:結(jié)構(gòu)基因(可被轉(zhuǎn)錄形成mRNA,并進(jìn)而翻譯成多肽鏈,構(gòu)成各種結(jié)構(gòu)蛋白質(zhì)、催化各種生化反應(yīng)的酶和激素等)調(diào)控基因(可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因)只轉(zhuǎn)錄而不翻譯的基因(如rRNA基因、tRNA基因)(2)人類基因的結(jié)構(gòu):一般認(rèn)為,人類結(jié)構(gòu)基因的結(jié)構(gòu)包括4個(gè)區(qū)域:外顯子(在轉(zhuǎn)錄時(shí)
47、,一些被轉(zhuǎn)錄形成RNA的序列叫外顯子);內(nèi)含子(在轉(zhuǎn)錄時(shí),基因中一些間隔序列的轉(zhuǎn)錄物在RNA成熟過程中被切除了;前導(dǎo)區(qū)(位于編碼區(qū)上游,相當(dāng)于mRNA5端非編碼區(qū)(非翻譯區(qū));調(diào)節(jié)區(qū)(包括啟動(dòng)子和增強(qiáng)子等基因編碼區(qū)的兩側(cè),也稱為側(cè)翼序列);人類基因結(jié)構(gòu)示意圖 542 HGP(人類基因組計(jì)劃)簡介1984年,正式啟動(dòng)了人類基因組計(jì)劃,也就是HGP(Human Genome Project)。有關(guān)HGP發(fā)展的情況大致如下:1984.12 猶他州阿爾塔組織會(huì)議,初步研討測定人類整個(gè)基因組DNA序列的意義1985 Dulbecco在Science撰文 “腫瘤研究的轉(zhuǎn)折點(diǎn):人類基因組的測序” 美國能源部
48、(DOE)提出“人類基因組計(jì)劃”草案1987 美國能源部和國家衛(wèi)生研究院(NIH)聯(lián)合為“人類基因組計(jì)劃”下?lián)軉?dòng)經(jīng)費(fèi)約550萬美元1989 美國成立“國家人類基因組研究中心”,Watson擔(dān)任第一任主任1990.10 經(jīng)美國國會(huì)批準(zhǔn),人類基因組計(jì)劃正式啟動(dòng)HGP的最初目標(biāo)是通過國際合作,用15年時(shí)間(19902005)至少投入30億美元,構(gòu)建詳細(xì)的人類基因組遺傳圖和物理圖,確定人類DNA的全部核苷酸序列,定位約10萬基因,并對其它生物進(jìn)行類似研究,研究的結(jié)果是得到4張圖:遺傳圖、物理圖、序列圖、基因圖。HGP的終極目標(biāo)是:闡明人類基因組全部DNA序列;識別基因;建立儲(chǔ)存這些信息的數(shù)據(jù)庫;開發(fā)
49、數(shù)據(jù)分析工具;研究HGP實(shí)施所帶來的倫理、法律和社會(huì)問題。 人類基因組組成示意圖 一般認(rèn)為功能基因組研究的核心問題有:基因組的多樣性;基因組的表達(dá)及其時(shí)空調(diào)節(jié);模式生物基因組研究倫理學(xué)問題等543基因芯片的簡介 基因芯片(又稱 DNA 芯片、生物芯片)指將大量(通常每平方厘米點(diǎn)陣密度高于 400 )探針分子固定于支持物上后與標(biāo)記的樣品分子進(jìn)行雜交,通過檢測每個(gè)探針分子的雜交信號強(qiáng)度進(jìn)而獲取樣品分子的數(shù)量和序列信息。 該技術(shù)應(yīng)用領(lǐng)域主要有基因表達(dá)譜分析、新基因發(fā)現(xiàn)、基因突變及多態(tài)性分析、基因組文庫作圖、疾病診斷和預(yù)測、藥物篩選、基因測序等。 1 基因芯片的主要類型芯片種類較多,制備方法也不盡相同
50、,但基本上可分為兩大類:一類是原位合成;一種是直接點(diǎn)樣。原位合成適用于寡核苷酸;直接點(diǎn)樣多用于大片段DNA,有時(shí)也用于寡核苷酸,甚至mRNA。原位合成有兩種途徑,一是光刻法;一是壓電打印法。 樣品的準(zhǔn)備及靶基因的雜交檢測待分析基因在與芯片結(jié)合探針雜交之前必需進(jìn)行分離、擴(kuò)增及標(biāo)記。根據(jù)樣品來源、基因含量及檢測方法和分析目的不同,采用的基因分離、擴(kuò)增及標(biāo)記方法各異。由于靈敏度所限,多數(shù)方法需要在標(biāo)記和分析前對樣品進(jìn)行適當(dāng)程序的擴(kuò)增,可在一個(gè)樣品中同時(shí)對數(shù)以萬計(jì)的 DNA 片段進(jìn)行克隆,且無需單獨(dú)處理和分離每個(gè)克隆 基因芯片技術(shù)的主要應(yīng)用 可同時(shí)、快速、準(zhǔn)確地分析數(shù)以千計(jì)基因組信息的本領(lǐng)而顯示出了巨大的威力。這些應(yīng)用主要包括基因表達(dá)檢測、突變檢測、基因組多態(tài)性分析和基因文庫作圖以及雜交測序等方面。此外,基因芯片技術(shù)還被廣泛地應(yīng)用于臨床疾病診斷、藥物篩選和新藥開發(fā)、環(huán)境保護(hù)、農(nóng)業(yè)和畜牧業(yè)、軍事和司法等領(lǐng)域?;蛐酒夹g(shù)的研究方向及
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手工具產(chǎn)品可靠性與壽命預(yù)測技術(shù)考核試卷
- 2025員工終止勞動(dòng)合同協(xié)議書范本
- 遼寧省重點(diǎn)高中沈陽市郊聯(lián)體2024-2025學(xué)年高二下學(xué)期4月月考政治試題(含答案)
- 諾如病毒知識培訓(xùn)
- 2025年軍隊(duì)文職人員-公務(wù)員核心備考題庫(含典型題、重點(diǎn)題)
- 2025年高考?xì)v史選擇題高分秘籍
- 加強(qiáng)學(xué)生手機(jī)管理班會(huì)
- 2024年秋季新人教版PEP版三年級上冊英語全冊教案
- 2025年2月份創(chuàng)意設(shè)計(jì)類辦公用品知識產(chǎn)權(quán)歸屬協(xié)議
- 部隊(duì)?wèi)?yīng)聘簡歷范文
- 【平衡計(jì)分卡在S生物公司績效考核體系的應(yīng)用探究開題報(bào)告14000字】
- DB62-T 4956-2024 玉米品種 隆豐256
- 垃圾桶采購?fù)稑?biāo)方案(技術(shù)方案)
- 浙江省金華市2024年中考數(shù)學(xué)一模試題(含答案)
- TSG51-2023起重機(jī)械安全技術(shù)規(guī)程
- 高職機(jī)電專業(yè)《機(jī)電一體化技術(shù)》說課課件
- 政府專項(xiàng)債業(yè)務(wù)培訓(xùn)
- 2024理療館合作協(xié)議書范本
- NB-T+33008.1-2018電動(dòng)汽車充電設(shè)備檢驗(yàn)試驗(yàn)規(guī)范 第1部分:非車載充電機(jī)
- 停工責(zé)任的告知函(聯(lián)系單)
- 2024廣東省高級人民法院勞動(dòng)合同制書記員招聘筆試參考題庫含答案解析
評論
0/150
提交評論