內蒙科大生物信息學課件第7章 生物芯片_第1頁
內蒙科大生物信息學課件第7章 生物芯片_第2頁
內蒙科大生物信息學課件第7章 生物芯片_第3頁
內蒙科大生物信息學課件第7章 生物芯片_第4頁
內蒙科大生物信息學課件第7章 生物芯片_第5頁
已閱讀5頁,還剩131頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第七章 生物芯片2022/9/10BIOINFORMATICS1本章提要:生物芯片被譽為20世紀生物學最重大發(fā)明技術之一。本章首先對生物芯片作了簡要介紹,然后從生物芯片的分類、基本原理、應用和數據的處理與分析幾個角度學習生物芯片有關的基本知識。2022/9/10BIOINFORMATICS27.1生物芯片簡介 生物芯片(Biochip) 又稱微陣列(microarray)。這一名詞是20世紀80年代初提出來的,美國海軍實驗室Carter等科學家試圖把有機功能分子或生物活性分子進行組裝,構建微功能單元,實現信息的獲取、儲存、處理和傳輸功能。真正的生物芯片出現于20世紀90年代,DNA微陣列技術自

2、1995年誕生之時,就被預言為具有劃時代意義的技術,將從根本上改變生物科技的面貌。2022/9/10BIOINFORMATICS3 生物芯片將生命科學研究中所涉及的不連續(xù)的分析過程(如樣品制備、化學反應和分析測試),利用微電子、微機械、化學、物理技術、計算機技術在固體芯片表面構建的微流體分析單元和系統(tǒng),使之集成化、微型化。2022/9/10BIOINFORMATICS4生物芯片主要是指采用光導原位合成或微量點樣等技術,將大量生物分子如核酸片斷、多肽片斷、組織切片、細胞等有序地固定于支持物(如玻片、硅片、聚丙烯酰胺、尼龍膜等)的表面,組成密集、有序的二維分子陣列,然后與已標記的待測生物樣品中靶分

3、子雜交,通過特定的儀器如激光共聚焦掃描或電荷偶聯攝像機(CCD)對雜交信號的強度進行快速、并行、高效的檢測分析,從而判斷樣品中靶分子的數量。2022/9/10BIOINFORMATICS5 微陣列的主要應用在于對基因表達問題的研究,特別是在人類基因組和其它生物基因組計劃完成之后,我們需要從全基因組水平定量或定性檢測轉錄產物mRNA。基因表達數據與基因組數據相比,更為復雜,數據量更大,數據的增長更快?;虮磉_數據中包含著基因活動的信息,可以反映細胞當前的生理狀態(tài)。2022/9/10BIOINFORMATICS6 通過對該數據矩陣的分析,可以回答一系列的生物學問題:基因的功能是什么?在不同條件或不

4、同細胞類型中,哪些基因的表達存在差異?在特定條件下,哪些基因的表達發(fā)生了顯著變化,這些基因受到哪些基因的調節(jié),或控制哪些基因的表達?2022/9/10BIOINFORMATICS7微陣列廣泛應用的另一個重要原因是為了理解基因網絡(network)或通路(pathway)。傳統(tǒng)的分子生物學方法針對“一個基因一個實驗”的設計思路,其通量極為有限,同時也無法獲得基因功能的整體框架。2022/9/10BIOINFORMATICS8 例如,傳統(tǒng)方法研究基因之間相互作用關系的方法之一是通過“基因敲除”技術來實現,只能在很小規(guī)模上觀測對相同或不同組織中對其它基因表達的影響,而微陣列可以在單一芯片上同時監(jiān)測整

5、個基因組的變化,因而可以同時理解成千上萬個基因之間的相互作用,對整個表達譜有一全面理解。2022/9/10BIOINFORMATICS9生物芯片會對21世紀的生命科學和醫(yī)學的發(fā)展產生巨大的影響,可以大大促進后基因組計劃的各項研究。通過比較不同個體或物種之間以及同一個體在不同生長發(fā)育階段,正常和疾病狀態(tài)下基因轉錄及其表達的差異,尋找和發(fā)現新基因,研究它們在生物體發(fā)育、遺傳、進化等過程中的功能。2022/9/10BIOINFORMATICS10生物芯片還將在研究人類重大疾病如癌癥、心血管病等相關基因及其相互作用機理方面發(fā)揮重要作用。在預防醫(yī)學方面,生物芯片可以使人們盡早認識自身潛在的疾病,并實施有

6、效的防治。2022/9/10BIOINFORMATICS117.2生物芯片的種類7.2.1 生物芯片的分類 1、根據支持介質劃分 制備芯片的固相支持介質有玻片、硅片、聚丙烯酰胺、尼龍膜等。選擇固相支持介質考慮的主要因素有:熒光背景的大小、化學穩(wěn)定性、結構復雜性、介質對化學修飾作用的反應、介質表面積及其承載物能力及非特異性吸附程度等因素。2022/9/10BIOINFORMATICS12 2、根據制備方法劃分 芯片制備的方法主要有原位合成和直接點樣法。其中原位合成的代表技術是先引導聚合法,其中最具有代表性的有Affymetrix公司的多寡核苷酸微陣列,此外還有噴墨打印合成法,代表是Agilent

7、公司的微陣列。直接點樣法用聚丙烯酰胺凝膠作為支持介質,將凝膠固定在玻璃上,然后將合成好的不同探針分別加到不同的膠塊上,制成以膠塊為陣點的芯片。2022/9/10BIOINFORMATICS13 3、根據芯片上固定的探針劃分 生物芯片按其探針分為基因芯片(Gene Chip)、蛋白質芯片(Protein Chip)、細胞芯片、組織芯片等。如果芯片上固定的分子是寡核苷酸探針或DNA,就是DNA芯片。DNA芯片又細分為寡核苷酸芯片、DNA芯片和基因芯片。2022/9/10BIOINFORMATICS147.2.2 幾種常見的生物芯片 1、基因芯片 基因芯片是目前最重要的生物芯片,又稱DNA芯片(DN

8、A Chip)或DNA微陣列(DNA microarray)。2022/9/10BIOINFORMATICS15基因芯片這一技術方法是1991年首次提出的,該技術將成千上萬的探針同時固定于支持物上,所以一次可以對大量的DNA分子或RNA分子進行檢測分析,從而解決了傳統(tǒng)核酸印跡雜交等技術復雜、自動化程度低、檢測目的分子數量少、低通量等不足。而且,通過設計不同的探針陣列(array),還可以用于序列分析,稱為雜交測序(SBH)。2022/9/10BIOINFORMATICS16 基因芯片以其無可比擬的信息量、高通量、快速、準確的分析基因的能力,在基因功能研究、基因診斷及藥物篩選等方面顯示了巨大的威

9、力,被稱為是基因功能研究領域的最偉大發(fā)明之一?;蛐酒云涓咄?、并行檢測等特點適應了分析人類基因組計劃對海量生物信息提取、分析的需要。2022/9/10BIOINFORMATICS17 深入研究基因突變和基因表達的有效方法的需求是基因芯片發(fā)展的動力。結構基因組學研究所有基因的結構和染色體定位,用傳統(tǒng)的方法費時費力,基因表達譜研究基因表達產物在機體發(fā)育、分化及疾病中的作用巨大。由于基因芯片高速度、高通量、集約化和低成本的特點,誕生以后就受到科學界的廣泛關注。2022/9/10BIOINFORMATICS182、蛋白質芯片蛋白質芯片,又稱蛋白質微陣列(protein microarray),是指

10、固定于支持介質上的蛋白質構成的微陣列。蛋白質芯片與基因芯片類似,是在一個基因芯片大小的載體上,按使用目的的不同,點布相同或不同種類的蛋白質,然后再用標記了熒光染料的蛋白質結合,掃描儀上讀出熒光強弱,計算機分析出樣本結果。2022/9/10BIOINFORMATICS19從理論上講,蛋白質芯片可以對各種蛋白質進行檢測,彌補基因芯片檢測的不足,不僅適合于抗原、抗體的篩選,同樣也可用于受體配體的相互作用的研究,具有一次性檢測樣本巨大、相對低消耗、計算機自動分析結果以及快速、準確等特點。2022/9/10BIOINFORMATICS20基因芯片通過檢測mRNA的豐度或者DNA的拷貝數來確定基因的表達模

11、式和表達水平,然而mRNA的表達水平(包括mRNA的種類和含量)并不能反應蛋白質的表達水平,許多功能蛋白質還有翻譯后修飾和加工,如磷酸化、羰基化、乙?;?、蛋白質水解等修飾,直接進行蛋白質分析是蛋白質組研究領域的重要內容。2022/9/10BIOINFORMATICS21 目前蛋白質組學研究的主要技術是質譜(MS)和雙向凝膠電泳(2DPAGE)。MS是一種十分有用的檢測工具,但目前尚不能用于定量分析;2D技術由于樣本需求量大、操作復雜也不能滿足醫(yī)學診斷的需求。因而,蛋白質芯片剛剛興起就成為研究熱點。2022/9/10BIOINFORMATICS22 蛋白質芯片技術的優(yōu)點主要體現在;能夠快速并且定

12、量分析大量蛋白質;蛋白質芯片使用相對簡單,結果正確率較高,只需對少量血樣標本進行沉降分離和標記后,即可加于芯片上進行分析和檢測;相對傳統(tǒng)的酶標ELISA分析,蛋白質芯片采用光敏染料標記,靈敏度高準確性好。此外,蛋白芯片的所需試劑少,可直接應用血清樣本,便于診斷,實用性強。 2022/9/10BIOINFORMATICS23 3、組織芯片 組織芯片是將多種組織切片代替核酸或蛋白質,按照一定順序固定在玻片上。其優(yōu)點在于可以原位檢測信號發(fā)生的位置,缺點是切片較大,因而不能在一張片子上大規(guī)模固定多個樣品。同時,由于組織切片的樣品來源很不穩(wěn)定,每張玻片之間都不相同,重復性和穩(wěn)定性一直是一主要問題。不過,

13、將芯片概念引入免疫組化和原位雜交中確實是一概念和技術上的突破。2022/9/10BIOINFORMATICS247.3 基因芯片的基本原理7.3.1 基因芯片基本原理和基本流程 7.3.1.1基因芯片的基本原理基因芯片的原型是20紀80年代中期提出的。基因芯片的基本原理是通過雜交的方法,即通過與一組已知序列的核酸探針雜交進行核酸的分析。 2022/9/10BIOINFORMATICS25基因芯片有寡核苷酸芯片、cDNA芯片和Genomic芯片之分,包括兩種模式:一是將靶DNA固定于支持物上,適合于同一探針對不同靶DNA的分析;二是將大量探針分子固定于支持物上,適合于對同一靶DNA進行不同探針序

14、列的分析。2022/9/10BIOINFORMATICS26根據基因芯片的應用又主要分為兩大類:用于研究基因型和用于檢測RNA的表達。從本質上來講,前者實際上是利用基因芯片進行序列分析,其中包括識別DNA序列的突變和研究DNA的多態(tài)性;而后者則是利用基因芯片研究序列的功能。7.3.1.2 基因芯片的基本流程圖8-1 cDNA微陣列工作流程圖2022/9/10BIOINFORMATICS28基因芯片技術包括四個主要步驟:芯片制備、樣品制備、雜交反應、信號檢測和結果分析。首先提出基因芯片所要解決的問題,確定研究目標,例如,研究基因的SNP。檢測或分析DNA的變異或者進行基因差異表達的研究。2022

15、/9/10BIOINFORMATICS29根據所要解決的問題,選擇一組特定的基因對象。其次,根據所選擇的基因序列,設計探針序列以及探針在芯片上的分布。然后根據設計結果制備基因芯片,制備方法大致分為在片合成法和點樣法。接下來就是對靶基因即待測樣品進行擴增和標記,然后進行雜交實驗,并對基因芯片的雜交結果進行檢測,最后根據獲得的熒光圖譜,進行數據處理分析,報告檢測結果,并將相應的數據存入數據庫。 2022/9/10BIOINFORMATICS30 1、基因芯片的制備 基因芯片的制備主要包括兩個方面:一是基因芯片的設計;二是基因芯片的制作。前者又包括基因芯片上探針的設計和探針在芯片上布局的設計。 20

16、22/9/10BIOINFORMATICS31 1)基因芯片設計:目的在于提取更多的生物分子信息,并提高信息的可靠性?;蛐酒O計包括寡核苷酸探針或cDNA探針設計、探針布局和芯片優(yōu)化。根據參照序列設計探針,盡可能使最終芯片的熒光檢測圖像中完全互補雜交信號突出,提高基因芯片檢測的可靠性。芯片優(yōu)化是指在設計后續(xù)階段對芯片制備過程進行優(yōu)化,如減少制備芯片所需要的掩膜板,精簡探針合成環(huán)節(jié)。2022/9/10BIOINFORMATICS32在芯片設計的不同階段,都要用到信息學中的優(yōu)化方法,如探針優(yōu)化、布局優(yōu)化及芯片優(yōu)化。各種基因芯片的功能不同,相應的芯片設計要求和設計方法也有所不同,必須根據具體的芯片

17、功能采用不同的設計方法?;蛐酒瑑纱蟛煌瑧檬腔蚪M規(guī)模的DNA變異分析和基因表達比較分析,從芯片設計方面來看,這兩大類應用具有許多共同的要求,但在一些重要的方面卻存在著很大的差異,必須在設計方面加以考慮。 2022/9/10BIOINFORMATICS33 在進行探針設計和布局時必需考慮以下幾個方面:互補性:探針與待檢測的目標序列片段互補;敏感性和特異性:要求探針僅僅對特定目標序列片段敏感,而對其他序列不產生雜交信號;容錯性:通過探針設計,提高基因芯片檢測的容錯性,常用的方法是使用冗余探針;2022/9/10BIOINFORMATICS34可靠性:通過探針設計,提高基因芯片檢測的可靠性;可控

18、性:在基因芯片上設置質量監(jiān)控探針,以便于監(jiān)控基因芯片產品的質量;可讀性:通過探針布局,使得最終的雜交檢測圖像便于觀察理解,如將檢測相關基因的探針放在芯片上相鄰的區(qū)域;高信號量的探針不要影響到其他探針的信號。2022/9/10BIOINFORMATICS35 在探針設計方面,最重要的是所有探針的雜交溫度要盡量接近。為了提高芯片對雜交錯配的辨別能力,人們提出了一種優(yōu)化設計方法。該方法的基本思想是通過動態(tài)調節(jié)各個探針的長度及探針之間的覆蓋長度,使所設計的各個探針的解鏈溫度Tm最大程度地保持一致,從而有效地提高對堿基雜交錯配的辨別能力,提高基因芯片檢測結果的可靠性。2022/9/10BIOINFORM

19、ATICS36 采用生物信息學中常用的動態(tài)規(guī)劃算法進行優(yōu)化,以使得各個探針具有相近解鏈溫度作為優(yōu)化目標,篩選并優(yōu)化組合各候選探針。在優(yōu)化組合時要求各探針的長度和相鄰探針之間的交疊長度滿足給定的約束條件,經過優(yōu)化組合以后得到一組覆蓋目標序列的探針。2022/9/10BIOINFORMATICS37 2)基因芯片的制作。要成功的制作芯片,需要準備三大材料:準備固定在芯片上的生物分子樣品(即探針)、芯片片基和制作芯片的儀器。2022/9/10BIOINFORMATICS38 研究目的不同,期望制作的芯片類型不同,制備芯片方法也不盡相同,以DNA芯片為例,基本上可分為兩大類:一類是原位合成(即在支持物

20、表面原位合成寡核苷酸探針),適用于寡核苷酸;另一類是點樣法,預合成后直接點樣多用于大片段DNA,有時也用于寡核苷酸,甚至cDNA。2022/9/10BIOINFORMATICS39 原位合成有兩種途徑,一是原位光刻合成(Affymetri公司專利技術),該方法的主要優(yōu)點是可以用很少的步驟合成極其大量的探針陣列。采用的技術原理是在合成堿基單體的5羥基末端連上一個光敏保護基。合成的第一步是利用光照射使羥基脫離保護,然后將一個5端保護的核苷酸單體連接上去,這個過程反復進行直至合成完畢。2022/9/10BIOINFORMATICS40使用多種掩蓋物能以更少的合成步驟生產出高密度的陣列,在合成循環(huán)中探

21、針數目呈指數增長。某一個含n個核苷酸的寡聚核苷酸,通過4n個化學步驟能合成出4n個可能結構。2022/9/10BIOINFORMATICS41例如,合成8核苷酸探針,要通過32個化學步驟,8個小時可合成65536個探針。用該方法合成的探針陣列密度可高達106個/cm2。另一種原位合成是壓電打印法(piezoelectric printing),原理與普通的彩色噴墨打印機相似,所用技術也是常規(guī)的固相合成方法。通過4個噴印頭將4種堿基按序列要求依次噴印在芯片的特定位點上,噴印頭可在整個芯片上移動。支持物經過包被后,根據芯片上不同位點探針的序列需要將特定的堿基噴印在芯片上特定位置。2022/9/10

22、BIOINFORMATICS42 該技術采用的化學原理與傳統(tǒng)的DNA固相合成一致,因此不需要特殊制備的化學試劑。每步產率可達到99以上,可以合成出長度為4050個堿基的探針。盡管如此,原位合成方法仍然比較復雜,除了在基因芯片研究方面享有盛譽的Affymetrix等公司使用該技術合成探針外,其他中小型公司大多使用合成點樣法。 2022/9/10BIOINFORMATICS43 點樣法是將預先通過液相化學合成的探針,或PCR技術擴增cDNA,或基因組DNA經純化、定量分析后,通過由陣列復制器(arraying and replicating device,ARD)或陣列點樣機(arrayer)及電

23、腦控制的機器人,準確、快速地將不同探針樣品定量點樣于帶正電荷的尼龍膜或硅片等相應位置上(支持物應事先進行特定處理,例如以帶正電荷的多聚賴氨酸或氨基硅烷),再由紫外線交聯固定后即得到DNA微陣列或芯片。2022/9/10BIOINFORMATICS44 點樣的方式分兩種:其一為接觸式點樣,即點樣針直接與固相支持物表面接觸,將DNA樣品留在固相支持物上;其二為非接觸式點樣,即噴點,它是以壓電原理將DNA樣品通過毛細管直接噴至固相支持物表面。 2022/9/10BIOINFORMATICS45 2靶基因(待測)樣品的制備 生物樣品往往是非常復雜的生物分子混合體,除少數特殊樣品外,一般不能直接與芯片反

24、應,必須將樣品進行生物處理。根據基因芯片的檢測目的不同,可以將樣品制備方法分為用于表達譜測量的mRNA樣品制備和用于多態(tài)性(或突變)分析的基因樣品的制備,由于這兩種不同的基因芯片在探針設計上有較大的區(qū)別,靶基因制備的實驗方法也不完全一樣。 2022/9/10BIOINFORMATICS46與普通分子生物學實驗一樣,靶基因的制備需要運用常規(guī)手段從細胞或組織中提取模板分子,從血液或活組織中獲取的DNA/mRNA樣品在標記成為探針以前必須進行擴增提高閱讀靈敏度,但這一過程操作起來卻有一定的難度。例如在一個癌細胞中有成千上萬個正?;蛟诟蓴_癌基因的檢測,對癌基因進行高效、特異地擴增就不是一件很容易的事

25、。因為在一般溶液中進行PCR擴增時,由于靶片段太少,故存在其他不同的DNA片段與其競爭引物的情況。2022/9/10BIOINFORMATICS47美國 Mosaic Technologies公司發(fā)展了一種固相 PCR系統(tǒng),優(yōu)于傳統(tǒng) PCR技術,此系統(tǒng)在靶 DNA上設計一對雙向引物,將其排列在丙烯酰胺薄膜上,每套都可以從靶基因兩頭延伸。當引物和DNA樣品及PCR試劑相混合時,如果樣品包含靶序列,DNA就從引物兩頭開始合成,并在引物之間形成雙鏈DNA環(huán)或“橋”。2022/9/10BIOINFORMATICS48由于上述反應在固相中產生,因而避免了引物競爭現象,并可減少殘留物污染和重復引發(fā)。這種方

26、法無交叉污染且省去液相處理的繁瑣。LynxTheqeuhcs公司提出另一個革新的方法,即大規(guī)模平行固相克?。╩assively parallel solidphase cloning)可以對一個樣品中數以萬計的DNA片段同時進行克隆,且不必分離和單獨處理每個克隆,使樣品擴增更為有效快速。2022/9/10BIOINFORMATICS49 對于檢測表達的芯片,樣品制備通常涉及mRNA的純化、cDNA的合成、體外轉錄或者PCR、標記等步驟;而對于SNP或者突變的檢測,則往往涉及基因組DNA的純化和PCR、標記等步驟。在模板擴增過程中,實現對靶基因的標記,根據樣品來源、基因含量、檢測方法和分析目的不

27、同,采用的基因分離、擴增及標記方法各異。待測樣品的標記方法有熒光標記法、生物素標記法、放射性核素標記法等。2022/9/10BIOINFORMATICS50 目前采用的最普遍的熒光標記方法是通過在擴增過程中加入含有熒光標記的dNTP(至少一種為熒光標記),在轉錄和復制過程中熒光標記的單核苷酸分子被引入新合成的DNA片段。2022/9/10BIOINFORMATICS51對于表達芯片分析,常用的幾種方法制備和標記靶基因:將純化的樣品RNA通過特定的引物逆轉錄合成單鏈cDNA靶基因,在合成的過程中摻入標記物;或者先將待測樣品的RNA轉錄合成cDNA,再進一步通過加入標記物進行體外轉錄合成cRNA單

28、鏈靶基因,或者將合成的cRNA加標記物和特殊引物進行PCR擴增,制備成標記的雙鏈靶基因。而對于SNP芯片和突變檢測,則需要將純化的基因組DNA用特定的引物擴增并進行標記。2022/9/10BIOINFORMATICS523靶基因的雜交及其信號的檢測和分析 基因芯片與靶基因的雜交過程與一般常規(guī)的分子雜交過程基本相同。其雜交過程一般先將制備得到的靶基因配制成適當的雜交液。 2022/9/10BIOINFORMATICS53適合于在玻璃片的雜交液有多種,比較典型的配方,如雜交溶液配方A(雜交溫度 42):50甲酰胺,6SCC,0.5SDS,5Denhardt試劑; 配方B(雜交溫度65):6SCC,

29、0.5SDS,5Denhardt試劑;配方C(雜交溫度65):10SDS,7的PEG8000。用于檢測的基因芯片先進行封閉預雜交30min,然后用含有靶基因的雜交液在雜交溫度下孵育824h,用清洗液清洗后離心干燥。2022/9/10BIOINFORMATICS54 雜交條件的選擇與研究目的有關,多態(tài)性分析或者基因測序時,每個核苷酸或突變部位都必須檢測出來,通常設計出一套4種寡核苷酸,在靶序列上跨越每個位點,只在中央位點堿基有所不同,根據每套探針在某一特定位點的雜交嚴謹程度,即可測定出該堿基的種類。2022/9/10BIOINFORMATICS55如果芯片僅用于檢測基因表達,只需設計出針對基因中

30、的特定區(qū)域的幾套寡核苷酸即可,表達檢測需要長的雜交時間,較低的嚴謹性,更高的樣品濃度和低溫度,這有利于增加檢測的特異性和低拷貝基因檢測的靈敏度。突變檢測,要鑒別出單堿基錯配,需要更高的雜交嚴謹性和更短的時間。 2022/9/10BIOINFORMATICS56 此外,雜交反應還必須考慮雜交反應體系中鹽濃度、探針GC含量和所帶電荷、探針與芯片之間連接臂的長度及種類、檢測基因的二級結構的影響。有資料顯示探針和芯片之間適當長度的連接臂可以使雜交效率提高150倍。連接臂上的正或負電荷都將減少雜交效率。由于探針和檢測基因均帶負電荷,因此影響它們之間的雜交結合,為此有人提出用不帶電荷的肽核酸(PNA)做探

31、針。2022/9/10BIOINFORMATICS57雖然PNA的制備比較復雜,但與DNA探針比較有許多特點,如不需要鹽離子,因此可防止檢測基因二級結構的形成及自身復性。由于PNADNA結合更加穩(wěn)定和特異,因此更有利于單堿基錯配基因的檢測。2022/9/10BIOINFORMATICS58顯色和分析測定方法主要為熒光法,其重復性較好,不足的是靈敏度仍較低。目前正在發(fā)展的方法還有質譜法、化學發(fā)光法、光導纖維法等。以熒光法為例,當前主要的檢測手段是激光共聚焦顯微掃描技術,以便于對高密度探針陣列每個位點的熒光強度進行定量分析。2022/9/10BIOINFORMATICS59 因為探針與樣品完全正常

32、配對時所產生的熒光信號強度是具有單個或兩個錯配堿基探針的535倍,所以對熒光信號強度精確測定是實現檢測特異性的基礎。但熒光法存在的問題是,只要標記的樣品結合到探針陣列上后就會發(fā)出陽性信號,這種結合是否為正常配對,或正常配對與錯配兼而有之,該方法本身并不能提供足夠的信息進行分辨。2022/9/10BIOINFORMATICS60 通常檢測芯片上的雜交信號需要高靈敏度的檢測系統(tǒng)閱讀儀(scanner or reader)。閱讀儀的成像原理分為激光共焦掃描和CCD成像兩種。激光共焦掃描與CCD相比,分辨率和靈敏度較高,但是掃描速度較慢且價格昂貴。經熒光樣品雜交后的芯片,熒光信號可以經過熒光顯微鏡、激

33、光共聚焦顯微鏡或激光掃描儀進行信號的收集,收集后的信號經過計算機處理,并與探針陣列位點進行比較,可得出雜交的檢測結果。2022/9/10BIOINFORMATICS61 4檢測結果分析 基因芯片檢測結果的分析主要包括三個方面: 1)熒光檢測圖像分析?;蛐酒c熒光樣品雜交后,用圖像掃描儀器捕獲芯片上的熒光圖像。許多基因芯片研究機構已開發(fā)出一些基因芯片圖像處理軟件,例如 Gene Pix、ImageGene、BioDiscovery、ScanAlyze等。 2022/9/10BIOINFORMATICS62 基因芯片圖像處理最基本的目標是確定每個芯片單元的熒光強度或熒光強度對比值(多色熒光標記的

34、情況下)。目標看上去雖然簡單,但是目前還沒有通用的處理方法。掃描和處理基因芯片圖像仍需要人工干預,以對齊網格線,保證正確標定每個芯片單元的位置,同時還要能夠去除圖像上的污點以及其他形式的圖像噪聲。2022/9/10BIOINFORMATICS632)檢測結果分析。如果芯片檢測的目的是測定序列,則要根據芯片上每個探針的雜交結果判斷樣本中是否含有對應的互補序列,并利用生物信息學中的片段組裝算法連接各個片段,形成更長的目標序列;如果檢測的目的是進行序列變異的分析,則要根據正確匹配探針以及錯配探針(錯配探針是指探針中有一個或幾個與靶基因核苷酸序列不同的探針)在基因芯片對應位置上的熒光強度,給出序列變化

35、的位點,并指明發(fā)生什么變化;2022/9/10BIOINFORMATICS64 如果芯片檢測的目的是進行基因表達分析,則需要給出芯片上各個基因的表達譜,定量描述基因的表達水平,進一步分析還包括基因表達模式進行聚類,尋找基因之間的相關性,發(fā)現協同工作的基因。2022/9/10BIOINFORMATICS65 3)檢測結果可靠性分析?;蛐酒且粋€非常復雜的系統(tǒng),包括許多環(huán)節(jié),由于目前技術上的限制,在基因芯片制備、雜交及檢測等方面都可能出現誤差,芯片檢測結果并非100可靠。2022/9/10BIOINFORMATICS66因此,必須對芯片檢測結果作出可靠性的評價。可靠性分析主要從兩個方面進行:一是

36、根據實驗統(tǒng)計誤差(如探針合成的錯誤率、全匹配探針與錯誤探針的誤識率等),計算出基因芯片最終結果的可靠性;二是對基因芯片與樣品序列雜交過程進行分子動力學研究,建立芯片雜交過程的計算機仿真實驗模型,以便在制作芯片之前分析所設計芯片的性能,預測芯片實驗結果的可靠性。2022/9/10BIOINFORMATICS677.4 生物芯片的應用生物芯片技術是20世紀90年代中期以來影響最深遠的重大科技進展之一,它是集微電子學、生物學、物理學、化學、計算機科學為一體高度交叉的高薪技術,具有重大的基礎研究價值,又具有明顯的產業(yè)化前景。由于使用該技術可以將大量的探針同時固定于支持物上,所以可以對大量生物分子進行檢

37、測分析,從而解決了傳統(tǒng)核酸印跡雜交技術復雜、自動化程度低、檢測目的分子數量少、低通量等不足。2022/9/10BIOINFORMATICS68 使用該技術有多種不同的應用價值,如測序、基因表達譜測定、基因診斷、藥物篩選等。為后基因組計劃時代基因功能的研究及現代醫(yī)學科學及醫(yī)學診斷學的發(fā)展提供了強有力的工具,將會使新基因的發(fā)現、基因診斷、藥物篩選、給藥個性化等方面取得重大突破,為人類社會帶來巨大變革。2022/9/10BIOINFORMATICS697.4.1 測序 采用生物芯片測序方法有芯片毛細血管電泳測序和寡核苷酸微陣列雜交測序兩種。1999年,加利福尼亞大學伯克利分校Mathies小組首先報

38、道芯片毛細血管電泳測序結果。他們在10分鐘內完成了對433個堿基對序列的測定工作。2022/9/10BIOINFORMATICS70 用芯片測序的另一種方法是寡核苷酸微陣列測序法,又稱雜交測序法(Sequencing by hybridization,SBH)。所謂SBH,就是利用固定探針與樣品進行分子雜交產生的雜交圖譜從而排列出待測DNA的序列順序。2022/9/10BIOINFORMATICS71 SBH的原理可以通過下面的例子來說明,設有DNA片段AGCCTAGCTGAA,探針為所有的8核苷酸(48=65536種)。將待測DNA和探針按一定比例在適宜溫度下混合雜交,完全匹配的序列有5種,

39、TCGGATCG,CGGATCGA, GGATCGAC,GATCGACT和ATCGACTT。這些探針只相差一個核苷酸,由它們可得到待測DNA的互補序列為TCGGATCGACTT,待測DNA序列為AGCCTAGCTGAA。2022/9/10BIOINFORMATICS72 最初SBH法是在液相中進行的,因此雜交信號的讀取非常困難,而且限制了序列分析的速度。采用DNA探針陣列方法有較大優(yōu)越性。把一組寡核苷酸探針有序地排列在硅、玻璃等基片表面,組成一二維陣列。在這一陣列中,每一探針都有確定的坐標位置,只要確定了位置就確定了探針,探針與待測DNA雜交,沖洗去非特異性DNA,檢測在哪些位點上有雜交信號。

40、2022/9/10BIOINFORMATICS73 再通過一定的計算就可以得到待測DNA的序列。Mark Chee等用含135000個寡核苷酸探針的高密度微陣列分析了黑猩猩和人BRCA1基因序列差異,結果發(fā)現在外顯子11約3.4kb長度范圍內的核酸序列同源性在98.2%到83.5%之間,揭示了二者有高度相似性。2022/9/10BIOINFORMATICS74目前SBH還存在若干問題,有待進一步改進。比如,由于眾多寡核苷酸組成各不相同,很難找到最佳雜交條件。錯配問題,特別是G-T和G-A,難于檢測。SBH不適合于重復序列和簡單序列單元DNA的測序等。2022/9/10BIOINFORMATIC

41、S757.4.2 基因表達分析由于DNA芯片技術可直接檢測mRNA的種類及豐度,因而成為研究基因表達的有力工具。檢測基因差異表達的操作流程見圖8-1。2022/9/10BIOINFORMATICS76 cDNA微陣列是在1995年由斯坦福大學率先研制成功并應用于基因表達分析的。首先將細胞內的mRNA逆轉錄成cDNA并分離,然后將分離得到的所有或部分cDNA(其長度通常大于200bp)作為探針,用機器手按照陣列的形式點到玻璃片上。玻璃片上的每一個點只包含一種cDNA分子,這樣就制成了cDNA微陣列。2022/9/10BIOINFORMATICS77 一般,探針的序列是已知的。在使用cDNA微陣列

42、時,首先提取組織或細胞系中的mRNA樣本,逆轉錄成cDNA并用熒光素標記;然后把標記混合物加到cDNA微陣列上,與探針雜交,雜交過程完成后,清洗微陣列;最后用激光掃描儀掃描并獲取熒光圖像,對圖像進行分析,得到cDNA芯片上每一個點的熒光強度值。熒光強度值定量地反映了樣本中存在的與探針互補的mRNA豐度,也就是反映了探針所對應基因的表達水平。2022/9/10BIOINFORMATICS787.4.3 基因診斷基因芯片目前最主要的應用之一就是疾病診斷。從正常人的細胞中分離出mRNA后與DNA芯片雜交就可以得出標準圖譜。從病人的細胞中分離出mRNA后與DNA芯片雜交就可以得出病變圖譜。通過分析比較

43、這兩種圖譜,就可以得出病變的mRNA表達的信息,即DNA突變發(fā)生在何部位,屬于什么樣的序列突變。2022/9/10BIOINFORMATICS79文獻報道了DNA芯片用于檢測遺傳性乳腺和卵巢癌基因BRCAl第11個外顯子的突變。檢測了15例病人樣品,發(fā)現其中14例有基因突變。在20個對照樣品中沒有假陽性結果出現。研究者所用高密度DNA芯片包含96600種20mer寡核苷酸探針。探針以綠色熒光標記,目的基因轉錄產物即靶分子標記紅色熒光,完全雜交的分子產生黃色熒光信號。2022/9/10BIOINFORMATICS80 結果顯示攜帶BRCAl突變基因的雜合子來源的靶分子能與兩種探針雜交,說明雜合子

44、中包含了野生型及突變型兩種基因。Affymetrix公司把P53基因全長序列和已知突變的探針集成在芯片上,制成P53基因芯片,將在癌癥早期診斷中發(fā)揮作用。2022/9/10BIOINFORMATICS81 又如,Heller等構建了96個基因的cDNA微陣列,用于檢測分析風濕性關節(jié)炎(RA)相關基因,以探討DNA芯片在感染性疾病診斷方面的應用。目前,多種診斷芯片包括結核桿菌耐藥性檢測芯片、肝炎病毒檢測芯片已逐步進入市場,基因診斷是基因芯片中最具有商業(yè)化價值的應用。2022/9/10BIOINFORMATICS827.4.4 藥物篩選 如何分離和鑒定藥的有效成分是目前中藥產業(yè)和傳統(tǒng)的西藥開發(fā)遇到

45、的重大問題,基因芯片是解決這一問題的有效手段,它能夠大規(guī)模地篩選、通用性強,能夠從基因水平解釋藥物的作用機理,即可以利用基因芯片分析用藥前后機體的不同組織、器官基因表達的差異。如果再以cDNA表達文庫得到的肽庫來制作肽芯片,則可以從眾多的藥物成分中篩選到起作用的部分物質。2022/9/10BIOINFORMATICS83 利用RNA、單鏈DNA有很大的柔性,能形成復雜的空間結構,更有利于與靶分子相結合的特點,可將核酸庫中的RNA或單鏈DNA固定在芯片上,然后與靶蛋白結合,形成蛋白質-RNA或蛋白質-DNA復合物,可以篩選特異的藥物蛋白或核酸,因此,芯片技術和RNA庫的結合在藥物篩選中有廣泛應用

46、。2022/9/10BIOINFORMATICS847.5 數據處理和分析7.5.1 數據處理7.5.1.1丟失數據和極端值的處理 丟失數據(missing data)和極端值(outlier)是微陣列實驗中數據質量控制(quality control )的兩個基本問題。數據丟失的原因很多,包括分辨率不夠、圖像失敗或只是由于芯片上的灰塵或劃痕所引起。數據丟失還可能由于自動化方法中的系統(tǒng)誤差產生。多數情況下,丟失的數據是這些不同原因相混合,不存在哪種占主要的問題。2022/9/10BIOINFORMATICS85 cDNA微陣列中數據丟失的含義是由于空點(empty spot),其熒光強度為零,

47、或者由于其背景強度高于樣品點。 Affymetrix微陣列丟失數據是指原始數據中錯配值(MM)高于全配值(PM)。這些可疑資料通常是經過手工方法剔除,不用做分析。但在某些情況下,剔除丟失數據可能給數據分析帶來困難,并引起重要信息的缺失。2022/9/10BIOINFORMATICS86 因此,最好將丟失數據進行替換。最簡單的數據替換方法是根據同一芯片上其他點的情況進行統(tǒng)計分析而得到一個預計值。對于雙色cDNA微陣列,如果某個基因有重復點,這些點的平均值可用來代替丟失數據。如果沒有重復點,可用統(tǒng)計方法預測丟失數據(如EM算法)。一種簡易方法是計算該樣品點用不同染料標記時在整個芯片強度的分布位置,

48、并以此為參照,推算出相應位置上的丟失值而加以替換。2022/9/10BIOINFORMATICS87 極端數據是指那些偏離群體的數據。微陣列實驗中,極端值的出現和消除可在不同水平。極端值可在一塊芯片上出現,但重復片子上不出現;也可以是同一片子上某個基因的重復點,而不管這些重復點鄰近與否;還可以是同一片子上任意點所產生的偏離。2022/9/10BIOINFORMATICS88現有微陣列技術中,多種因素可導致不同芯片間的變異性。已有不同方法減少這些芯片間的變異和系統(tǒng)誤差(如下文將要敘述的正態(tài)化)。同一類型的芯片中,那些變異性大的片子應當去除,這種片子又稱極端片子(outlier slide)。片間

49、變異可能由于點樣濃度和體積、加到芯片上的標記靶分子數目、雜交條件和其他因素等所引起。最簡單的去除極端片子的方法是靠視覺觀察圖像。一種簡單而有效的消除方法是通過提高實驗自動化程度而消除。2022/9/10BIOINFORMATICS89另一種去除極端片子的方法是如前面實驗設計中討論的那樣,進行重復性實驗,并用統(tǒng)計方法評估片間變異。重復片子上對應的基因可得到相關系數。這種方法中,至少需要3次重復才能評估芯片質量和剔除極端片子。所用的方法是計算兩兩配對(pairwise)相關系數。這時,需要設置一個相關系數界值,依實驗設計而定,但通常必須大于0.9。通過兩兩配對,分別得到各相關系數值。2022/9/

50、10BIOINFORMATICS90 通常情況下,相關系數都比較高且差別不大。如果兩個相關系數值遠遠低于另外一個,常表明存在極端片子。如果所有相關系數都很低,表示微陣列的質量差,這不是極端值的范疇,而需要重新設計和制作芯片。2022/9/10BIOINFORMATICS91 同一芯片上也可出現極端值。在缺乏重復點的情況下,最高和最低的數值通常被當做極端值處理而加以剔除。閾值的設置可以根據百分位值(如最低數值點或最高數值點的0.5)或那些偏離整個片子的分布中一定數量的標準差范圍(如3)。剩余的資料重新計算均數和標準差。2022/9/10BIOINFORMATICS92 這個過程不斷重復,直到沒有

51、發(fā)現極端值為止。這種方法主要根據統(tǒng)計學原理,有一定的局限性。從生物學角度來看,某些基因的表達可能極高或極低,而且意義很大,特別是那些高表達的基因。在有重復點的情況下,極端值的挑選主要根據重復性的相似情況。如果某個重復點偏離該基因所有重復點平均數幾個標準差范圍,這個點即被當做極端值,需要去除或替換。2022/9/10BIOINFORMATICS937.5.1.2數據的正態(tài)性和線性檢查正態(tài)性(normality)是指所分析數據是否符合正態(tài)分布,而線性(linearity)是指兩組樣品的散點圖中,其數據相關性呈線性。在數據分析前后都必須檢查數據的正態(tài)性和線性,這是由于微陣列數據分析所用統(tǒng)計方法中基本

52、都假定數據呈正態(tài)分布。如果數據不呈正態(tài)分布,而是向一側偏移,這些統(tǒng)計方法所得結果將不可靠,除非選用不依賴正態(tài)分布的非參數統(tǒng)計方法。微陣列數據通常向右歪斜,這是因為許多基因表現為中度或低度表達。2022/9/10BIOINFORMATICS94數據的線性檢查有助于正態(tài)化方法的選用。線性相關資料可用整體正態(tài)化方法,非線性相關資料則采用局部正態(tài)化方法。同時,線性檢查也可提供數據可靠性的信息。檢查線性最簡單的方法是作散點圖(scatter plot)。如果數據呈線性,點的分布應符合直線性。2022/9/10BIOINFORMATICS957.5.2數據分析 微陣列合適的數據分析方法取決于實驗設計和研究

53、目的。微陣列通常用于發(fā)現基因、闡明代謝途徑和進行分子分類。要回答這些問題,需要綜合考慮多個方面。實驗條件可以有多種,如不同時相觀察。這些條件可以相對獨立,也可有某種聯系,甚至是多種實驗變量的組合。為了反映這些多樣性,已有一些常用的方法用做鑒定這些變化的顯著性或基因表達模式的識別。2022/9/10BIOINFORMATICS96 這主要包括監(jiān)測兩個或多個樣品基因表達水平比值的表達差異性(differential expression),減少維數并進行歸類的主成分分析(principle component analysis),以及用做類型發(fā)現(class discovery)和類型預測(cla

54、ss prediction)的聚類分析(clustering)和分類分析( classification)。以下將主要介紹目前常用的差異表達分析和聚類分析。2022/9/10BIOINFORMATICS977.5.2.1 差異表達分析 用于檢測基因表達水平的DNA微陣列實驗的應用之一是比較實驗,其目的是比較兩個條件下的基因表達差異,從中識別出與條件相關的特異性基因。何謂顯著表達差異?它通常是指一個基因在兩個條件中表達水平的檢測值在排除實驗、檢測等因素外,達到一定的差異,具有統(tǒng)計學意義,同時也具有生物學意義。例如,與正常組織相比,腫瘤組織中相對高表達的基因。2022/9/10BIOINFORMA

55、TICS98 微陣列技術的早期應用中(目前還在應用),研究差異表達基因的方法是將相同組織來源的兩種樣品(如癌癥和正常)經不同標記,混合后與同一芯片雜交。篩選的標準通常定義為1.8-2.0倍。其比值超過這個界值時被認為是差異表達。如果使用重復點,出現一個以上的重復點的表達比值超過閾值,這個基因可被認為是差異表達基因。2022/9/10BIOINFORMATICS99常用的分析方法有3類,第一類稱之為倍數分析,計算每一個基因在兩個條件下的Ratio值,若大于給定閾值,則為表達差異顯著的基因;第二類方法采用統(tǒng)計分析中的t檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統(tǒng)計顯著性;第三類是建模

56、的方法,通過確定兩個條件下的模型參數是否相同來判斷表達差異的顯著性,例如貝葉斯方法。2022/9/10BIOINFORMATICS100倍數變化分析方法具有明顯的局限性,這是因為缺乏基因表達變化數據的可靠性和界值的選擇標準。從生物學角度看,基因表達變化的程度并不一定表示會產生生物學后果。而兩種不同組織或狀態(tài)下,一種僅表現為20變化量的基因可能較同樣組織中變化量超過2倍或更高倍數的基因更具生物學意義。例如,信號傳導途徑中,任何細小的基因表達量的變化可產生明顯的生物學結果。2022/9/10BIOINFORMATICS101即使通過統(tǒng)計分析得到的差異表達基因,也會出現同樣的爭議。另外,低表達基因的

57、熒光強度更易受到其他因素如背景噪音的影響,因此低豐度基因所受影響較高豐度基因大,需要一個更大的界值才能篩選出受調節(jié)的基因。2022/9/10BIOINFORMATICS102篩選差異表達基因更可靠的方法是利用統(tǒng)計學原理,特別是有重復芯片或基因點時。僅有為數不多的統(tǒng)計處理方法可用來進行微陣列的數據分析。差異表達基因的統(tǒng)計檢驗方法通常是比較兩組或多組均數的差異。如果僅有兩組,可用t檢驗;兩組以上則常用方差分析(ANOVA),兩者的假設都必須符合正態(tài)分布。2022/9/10BIOINFORMATICS103差異表達統(tǒng)計分析時,需要決定選用單側檢驗還是雙側檢驗。通常分3種情形: 研究組(如腫瘤)較對照

58、組表達高; 研究組較對照組表達低; 研究組和對照組的表達可高可低。前兩種情況選擇單側檢驗,最后一種情況選擇雙側檢驗。另一需要考慮的問題是界值( I類錯誤)的設定,通常選擇0.05。由于微陣列上有成千上萬個基因,盡管I類錯誤的比例較小,但假陽性的基因數目不可低估。2022/9/10BIOINFORMATICS104如10000個基因的芯片,將有500個基因的表達 為假陽性結果。這種錯誤率顯然與樣品大小有關?;谶@種分析,很難避免實驗水平上的誤差,這可以根據下面的計算進一步說明問題。2022/9/10BIOINFORMATICS105如果選擇顯著性水平為0.05,每個基因不出錯的概率為: Pgen

59、e(正確)1-P1-0.050.95 因此,如果觀察500個基因,實驗水平上不出錯的概率為: Pexp(正確)(1-P)500(1-0.05)500 0.955007.275E-12 這樣,實驗水平引起錯誤的概率是: Pexp(錯誤)1-(1-P)5001-7.275E-12 12022/9/10BIOINFORMATICS106就是說,含500個基因的微陣列將不可避免地出現錯誤,更不用說含有上千或上萬個基因的情況。因此,多重比較時常需要進行校正,以降低總的實驗水平的I類錯誤的概率,即在基因水平發(fā)生至少一個錯誤的概率。校正方法中常用的有Sdk校正法、Bonferroni校正法,以及假發(fā)現率控制

60、法(false discovery rate controlling )和置換校正法(permutation correction)。 2022/9/10BIOINFORMATICS1077.5.2.2 主成分分析(PCA)數據集中,一些數據并不能增加有用的信息量,而只是混淆數據,這時需要減少數據的維數(dimension)。微陣列的數據集通常非常大,含有上萬個基因,以及很多次不同實驗的結果。每個基因以及每個實驗就可當做一維。減少維數的方法有多種,主成分分析(PCA )是最常用的一種。2022/9/10BIOINFORMATICS108計算主成分的目的是將高維數據投影到較低維空間。給定n個變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論