基因表達數(shù)據(jù)分析_第1頁
基因表達數(shù)據(jù)分析_第2頁
基因表達數(shù)據(jù)分析_第3頁
基因表達數(shù)據(jù)分析_第4頁
基因表達數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第 8 章 基因表達數(shù)據(jù)分析基因芯片或 DNA 微陣列等高通量檢測技術(shù)的發(fā)展, 可以從全基因組水平定量或定性檢 測基因轉(zhuǎn)錄產(chǎn)物 mRNA ,獲取基因表達的信息。由于生物體中的細胞種類繁多,同時基因 表達具有時空特異性,因此,基因表達數(shù)據(jù)要比基因組數(shù)據(jù)更為復(fù)雜、 數(shù)據(jù)量更大、數(shù)據(jù)的 增長速度更快。 基因表達數(shù)據(jù)中蘊含著基因調(diào)控的規(guī)律, 可以反映細胞當前的生理狀態(tài), 例 如(?)是否惡化、 (?)是否對藥物有效等。對基因表達數(shù)據(jù)的分析是生物信息學(xué)的 重大挑戰(zhàn)之一,也是 DNA 微陣列能夠推廣應(yīng)用的關(guān)鍵環(huán)節(jié)之一?;虮磉_數(shù)據(jù)分析的對象是在不同條件下, 全部或部分基因的表達數(shù)據(jù)所構(gòu)成的數(shù)據(jù)矩 陣。通過

2、對數(shù)據(jù)矩陣的分析,回答一些生物學(xué)問題,例如,基因的功能是什么?在不同條件 或不同細胞類型中, 哪些基因的表達存在差異?在特定的條件下, 哪些基因的表達發(fā)生了顯 著改變, 這些基因受到哪些基因的調(diào)節(jié), 或者調(diào)控哪些其它的基因?哪些基因的表達是條件 特異性的, 根據(jù)它們的行為可以判斷細胞的狀態(tài)(正常或癌變)?等等。對這些問題 的回答, 結(jié)合其他生物學(xué)知識和數(shù)據(jù)有助于闡明基因的調(diào)控路徑和基因之間的調(diào)控網(wǎng)絡(luò)。 揭 示基因調(diào)控路徑和網(wǎng)絡(luò)是生物學(xué)和生物信息學(xué)共同關(guān)注的目標,是系統(tǒng)生物學(xué) (Systems Biology ,在附錄中增加解釋條目! )研究的核心內(nèi)容。目前,對基因表達數(shù)據(jù)的分析主要是 在三個逐

3、漸復(fù)雜的層次上進行: 1、分析單個基因的表達水平,根據(jù)在不同實驗條件下,該 基因表達水平的變化, 來判斷它的功能, 例如可以確定腫瘤類型特異基因。 采用的分析方法 可以是統(tǒng)計學(xué)中的假設(shè)檢驗等。 2、考慮基因組合,將基因分組,研究基因的共同功能、相 互作用以及協(xié)同調(diào)控等。多采用聚類分析等方法。3、嘗試推斷潛在的基因調(diào)控網(wǎng)絡(luò),從機理上解釋觀察到的基因表達譜。多采用反工程的方法。本章首先介紹基因表達數(shù)據(jù)的來源和預(yù)處理方法; 然后介紹基因表達數(shù)據(jù)分析的主要方 法,即表達差異分析和聚類分析; 最后簡單介紹從基因表達數(shù)據(jù)出發(fā)研究基因調(diào)控網(wǎng)絡(luò)的一 些經(jīng)典模型。8.1 基因表達數(shù)據(jù)的獲取基因表達數(shù)據(jù)反映的是直

4、接或間接測量得到的基因轉(zhuǎn)錄產(chǎn)物 mRNA 在細胞中的拷貝數(shù) 或者水平(轉(zhuǎn)錄?) ,這些數(shù)據(jù)可以用于分析哪些基因的表達發(fā)生了改變,它們有何相關(guān) 性,在不同條件下基因是如何受影響的。 它們在醫(yī)學(xué)臨床診斷、藥物療效判斷、揭示疾病發(fā) 生機制等方面有重要的應(yīng)用。目前檢測 mRNA 水平的方法有 DNA 微陣列、基因芯片、基 因表達串行化分析 ( Serial analysis of gene expression ,SAGE )、RT-PCR、EST 測序等。目前, 最主要的表達數(shù)據(jù)來自于基因芯片或 cDNA 微陣列,它們的原理是相同的,利用 4 種核苷 酸之間兩兩配對互補的特性,使兩條在序列上互補的單

5、鏈形成雙鏈,這個過程被稱為雜交。 基本技術(shù)是:在一個約 1cm2 大小的玻璃片上,將稱為探針的核苷酸片段固定在上面,這個 過程稱為芯片制備;從細胞或組織中提取mRNA,通過RT-PCR合成熒光標記的 cDNA,與芯片雜交;用激光顯微鏡或熒光顯微鏡檢測雜交后的芯片,獲取熒光強度,分析細胞中的 mRNA 的相對水平。8.1.1 cDNA 微陣列cDNA 微陣列最早是在 1995 年,由斯坦福大學(xué)研制并應(yīng)用于基因表達分析的。首先將 細胞內(nèi)的 mRNA 逆轉(zhuǎn)錄成 cDNA 并分離,然后將分離得到的所有或部分 cDNA (通常大于 200bp)作為探針,用機器手點到玻璃片上,玻璃片上的每一個點包含一種c

6、DNA分子,這樣就制成了 cDNA 微陣列。固定在玻片上的 cDNA 探針可以通過測序得到序列或者其來源 是已知的。在使用 cDNA 微陣列時, 首先是提取組織或細胞系的 mRNA 樣本,逆轉(zhuǎn)錄成 cDNA 并用熒光素標記;然后把標記混合物加到 cDNA 微陣列上,與探針雜交,雜交過程完成后, 清洗微陣列;然后用激光掃描儀掃描并獲取熒光圖像,對圖像進行分析,得到cDNA 芯片上每一個點的熒光強度值。熒光強度值定量反映了樣本中存在的與探針互補的mRNA 量,也就是反映了探針對應(yīng)基因的表達水平。在制造 cDNA 微陣列時, 點樣點的大小是不能保證完全一樣的, 點的排列也是不規(guī)則的, 這樣要比較不同

7、微陣列圖像的熒光絕對強度是不合理的, 因此通常使用雙色熒光系統(tǒng)來糾正 點之間的差異。在制備樣本時,使用兩個樣本,一個稱為控制樣本或?qū)φ諛颖?,其cDNA用紅色(Cy5)或綠色(Cy3)熒光素標記,另一個為測量樣本,其cDNA用與對照樣本不同的綠色或紅色熒光素標記。這兩個樣本按1:1 的比例混合,同時與微陣列雜交,雜交后用不同波長的激光掃描, 分別獲取熒光強度, 并成像。 來自兩個樣本的基因如果以相同水平 表達則顯示黃色,而如果表達水平有差異,則圖像顯示紅色或綠色。因此,cDNA 微陣列的實驗數(shù)據(jù)反映了兩個樣本中基因的相對表達水平。通常,在cDNA 微陣列實驗中對獲取的原始圖像數(shù)據(jù)必須進行歸一化,

8、 例如基于全局強度值調(diào)整、 強度相關(guān)歸一化、 玻片之間的對 比歸一化等,通常這些工作由與微陣列掃描系統(tǒng)配套的軟件自動完成。為什么要進行歸一 化?如果用不同熒光素標記的是相同的樣本,那么比率 Cy5/Cy3 ( ratio 值)的期望值為 1, 但由于 Cy3 和 Cy5 的標記效率不相等,或存在系統(tǒng)噪聲等原因,得到的 Cy5/Cy3 往往不等 于 1,所以通過歸一化可以使之回到 1,并調(diào)整其它的測量值。歸一化方法包括總密度(假 設(shè)兩個樣本中的總 RNA是相等的)、線性回歸、Ratio統(tǒng)計、迭代log(ratio)平均值中心化等。cDNA 微陣列實驗得到的值反映了基因的相對表達水平,即測量樣本與

9、對照樣本之間熒 光信號強度的比率或者比率取對數(shù), 這是一個無量綱的值, 可用于比較一組實驗中的基因相 對表達水平。 如果對照樣本的信號非常低, 那么這個比率就可能很大, 因為可能主要是噪聲 信號, 因此它很可能是無意義的, 對于這些數(shù)據(jù)往往看作是不確定的, 在后續(xù)分析時要注意 這些數(shù)據(jù),根據(jù)需要確定是否保留以及如何賦值。(是否是自己的語言?,或用我們的文章,陸老師)8.1.2 寡核苷酸芯片又稱為基因芯片、 DNA 芯片。它是在玻璃片上按陣列固定寡核苷酸探針,這些探針是 在片原位合成的?,F(xiàn)有產(chǎn)品中應(yīng)用最廣泛的是 Affymetrix 公司制造的 GENECHIP ?芯片,它 使用一種光掩模技術(shù)和

10、傳統(tǒng)的 DNA 合成化學(xué)的組合以非常高的密度制造寡核苷酸陣列。 例 如, Affymetrix 公司的 Human Genome U133 芯片包含了 100 萬個不同的寡核苷酸探針,代 表了 33000 個人類基因。寡核苷酸芯片主要用于 DNA 多態(tài)性檢測和基因表達分析,還可以 用于微生物基因組的再測序。寡核苷酸探針的長度通常為20-25bp,在檢測mRNA表達水平時可能存在寡核苷酸之間的非特異性交叉雜交的冗余信息,可能會掩蓋雜交信號; 此外,對于特定的寡核苷酸, 信號強度對于寡核苷酸的堿基組成是敏感的。對于第一個問題,通常是采用匹配/失配(PM/MM )探針對的方法,即在設(shè)計一個特異的寡核

11、苷酸(匹配)時,同時設(shè)計一個非特異的寡核苷酸探針,僅僅在中間位置有一個堿基替換(失配),這樣可以用PM與MM之間的差值作為信號強度。為了解決第二個問題,在設(shè)計探針時,對于每一個待檢測的mRNA包含多個寡核苷酸探針,例如為每一個轉(zhuǎn)錄本設(shè)計11-20個探針對來檢測。與cDNA微陣列不同的是,與寡核苷酸芯片雜交的是測量樣本,而不是cDNA微陣列實驗中的測量樣本與對照樣本的混合物。對于基因芯片的檢測結(jié)果有兩種,一種是P/A/M,表示有/無/不確定,另一種是信號強度。前者的結(jié)果主要是用來判斷樣本中有無特定基因的 表達,這個結(jié)果對于部分實驗,特別是一些定性實驗是有意義的,例如判斷腫瘤與正常情況下的細胞基因

12、表達差異。 當需要對幾個不同條件下的基因表達情況進行分析時,對基因表達的相對變化更感興趣,所以多采用第二種方式。有時基因表達數(shù)據(jù)的信號強度是負值,這是由于測量的信號小于背景信號或者背景/陰性控制樣本的定義不正確造成的,對于前者,一般把負值做為0考慮,現(xiàn)在的Asymetrix的芯片分析系統(tǒng)已不產(chǎn)生負值。(?)在考慮基因表達譜時,所采用的數(shù)據(jù)與cDNA微陣列數(shù)據(jù)一樣,也是一系列測量樣本與對照樣本之間的信號強度比率或比率的對數(shù)值。實驗得到的信號強度也是經(jīng)過規(guī)格化的數(shù)值,規(guī)格化的方法很多,但歸一化過程一般都包含在芯片掃描系統(tǒng)的圖像處理軟件中。cDNA微陣列或基因芯片(以下統(tǒng)稱微陣列)在用于基因表達分析

13、時的一個最大優(yōu)點是 高通量性,在一次芯片實驗中可以對成千上萬個基因的表達進行并行測量。由于實驗環(huán)節(jié)較多,雖然在設(shè)計芯片時可以通過添加陰性和陽性探針等手段來保證數(shù)據(jù)的可靠,但是需要提醒的是,數(shù)據(jù)的可靠性仍然是對數(shù)據(jù)進行后續(xù)分析時必須考慮的一個問題。8.1.3基因表達數(shù)據(jù)的網(wǎng)絡(luò)資源大量基于微陣列實驗的基因表達數(shù)據(jù)是公開在In ternet網(wǎng)上的,尤其是學(xué)術(shù)機構(gòu)在發(fā)表論文時所用的實驗數(shù)據(jù)都能免費提供給全世界的研究人員下載使用。作為學(xué)術(shù)論文的補充資料在網(wǎng)上發(fā)布的數(shù)據(jù)主要是文本文件或Excel格式的文件,這些數(shù)據(jù)往往都是經(jīng)過歸一化處理后的Ratio值或log2(Ratio),對于寡核苷酸芯片數(shù)據(jù)有的是P

14、/A/M ( Present/Absent/Don'tKnow)的表示或基因絕對表達值。因為這些數(shù)據(jù)文件沒有包含原始的實驗方案、實驗材料、原始掃描圖像、圖像處理方法和數(shù)據(jù)歸一化方法等信息,對于要比較、集成和整合分析來自不同研究小組的基因表達數(shù)據(jù)是非常困難的。主要原因是微陣列并不是在任何客觀的個體上測量基因表達水平,大多數(shù)測量值僅僅是基因表達的相對變化,而且使用的并不是一個標準化的對照樣本。同時,基因表達數(shù)據(jù)比基因組序列數(shù)據(jù)要復(fù)雜的多,這些數(shù)據(jù)僅僅在有具體的關(guān)于實驗條件的描述時才是有意義的,對于不同的細胞類型, 在不同的條件下都有一套轉(zhuǎn)錄本。因此,基于微陣列的基因表達數(shù)據(jù)存儲量是非常大的

15、,對于具有20000個探針的微陣列實驗,以10um的分辨率掃描,產(chǎn)生 3千萬個離散的數(shù)據(jù)點,如果以tiff文件貯存,將占用60Mb的硬盤空間。一方面是基因表達數(shù)據(jù)量非常龐大,數(shù)據(jù)中蘊含著豐富的生物學(xué)知識,另一方面是這些數(shù)據(jù)沒有注釋,迫切需要一種標準來描述和存貯微陣列基因表達數(shù)據(jù),同時建立公共的微陣列數(shù)據(jù)倉庫。歐洲生物信息學(xué)研究所(EBI)與德國腫瘤研究中心(DKFZ)在1999年成立了MGED 討論組(The Microarray Gene Expression Data) 。MGED ( / )是一 個國際性的成員聯(lián)盟,參與人員包括生物學(xué)家、計算機科學(xué)家、

16、數(shù)據(jù)分析學(xué)家。它的目標是 促進由功能基因組學(xué)和蛋白組學(xué)研究產(chǎn)生的微陣列數(shù)據(jù)的共享。當前集中于建立微陣列數(shù)據(jù)注釋和交換的標準,推動微陣列數(shù)據(jù)庫建設(shè)和相關(guān)軟件來實現(xiàn)這些標準,促進高質(zhì)量的、經(jīng)過注釋的基因表達數(shù)據(jù)在生命科學(xué)領(lǐng)域的共享。該組織開發(fā)的微陣列數(shù)據(jù)標準稱為MIAME(the minimum information about a microarray experiment),是對于解釋和驗證結(jié)果所必需的微陣列實驗的最小信息描述。MIAME不是微陣列實驗必須遵循的教條,而是一組指導(dǎo)方針,它將幫助微陣列數(shù)據(jù)庫和數(shù)據(jù)分析工具的開發(fā)。同時,MGED組織開發(fā)了微陣列基因表達標記語言 (MAGE-ML

17、,Microarray Gene Expression - Markup Language ),它是一種語 言,用來描述和基于實驗的微陣列信息的通訊,它基于 XML,可以描述微陣列設(shè)計、微陣 列制造信息,微陣列實驗組織和實施信息,基因表達數(shù)據(jù)和數(shù)據(jù)表達結(jié)果。MIMAE標準和MAGE-ML 語言受到了廣泛關(guān)注。美國NCBI的Gene Expression Omnibus (GEO)、英國的EBI的ArrayExpress數(shù)據(jù)庫都采用了該標準,斯坦福微陣列數(shù)據(jù)庫(Stanford MicroarrayDatabase, SMD)也正在兼容該標準。目前收集、存貯微陣列基因表達數(shù)據(jù)的最有影響的數(shù)據(jù)庫和

18、網(wǎng)站是GEO、ArrayExpress和 SMD。GEO( /geo )是由 NCBI 在 2000 年開發(fā)的一個基因表達和雜 交微陣列數(shù)據(jù)倉庫,同時作為獲取來自不同生物體的基因表達數(shù)據(jù)的在線資源。到2004年3月,數(shù)據(jù)倉庫中包含內(nèi)容605個Platforms, 14391個Sample,816個Serial。Platform是關(guān)于物理反應(yīng)物的信息,例如核酸、抗體和組織微陣列和SAGE數(shù)據(jù)等的基因表達數(shù)據(jù)被接受、增加和歸檔作為公共數(shù)據(jù)集。Series是關(guān)于樣本集的信息,反映樣本間的相關(guān)性和組織。ArrayExpress( http:/www.

19、ebi.ac.uk/arrayexpress/ )是基于基因表達數(shù)據(jù)的微陣列公共知識 庫,目的是存儲被很好注釋的數(shù)據(jù),當前包含多個基因表達數(shù)據(jù)集和與實驗相關(guān)的原始圖像集。ArrayExpress數(shù)據(jù)庫接受 MAGE-ML格式的數(shù)據(jù)遞交或者通過MIAMExpress的基于Web的數(shù)據(jù)注釋和遞交工具。ArrayExpress提供一個簡單的基于Web的數(shù)據(jù)查詢界面,并直接與Expession Profiler數(shù)據(jù)分析工具相連,可以進行表達數(shù)據(jù)聚類,和其它類型的Web數(shù)據(jù)發(fā)掘,并將進一步開發(fā)多個實驗和數(shù)據(jù)庫間的交叉查詢。ArrayExpress數(shù)據(jù)庫中的數(shù)據(jù)將與所有相關(guān)的由EBI維護的或在線的數(shù)據(jù)庫相

20、聯(lián)接。斯坦福微陣列數(shù)據(jù)庫 (SMD , / )是一個使用 Oracle作為數(shù) 據(jù)庫管理軟件的關(guān)系數(shù)據(jù)庫。SMD存儲微陣列實驗的原始、歸一化數(shù)據(jù)和對應(yīng)的圖像文件。 自從2002年1月1日起,到現(xiàn)在包括 85篇學(xué)術(shù)論文,超過3500個雙色點樣DNA微陣列的實驗數(shù)據(jù),每年增加1000個微陣列實驗的數(shù)據(jù)。另外,SMD提供數(shù)據(jù)獲取、分析和可視化的界面,目前包括層次聚類和自組織映射等方法,還將加入k-平均聚類、單值分解和丟失值歸納等方法。除了以上3個綜合性的基因表達數(shù)據(jù)倉庫外,還有一些專門的基因表達數(shù)據(jù)庫,例如YMD (Yale Microarr

21、ay Database ,/microarray/)、 ArrayDB(/arraydb/ )、 BodyMap ( http:/bodymap.ims.u-tokyo.ac.jp/ )、 ExpressDB( /ExpressDB/ )、 HuGE Index(Human Gene Expression Index, /welcome/index.html) 等,這些數(shù)據(jù)庫收集的數(shù)據(jù)往往具有物 種特

22、異性,使用比較方便。8.2基因表達數(shù)據(jù)預(yù)處理一次微陣列實驗?zāi)塬@得細胞在某一條件下的全基因組表達數(shù)據(jù),包含成千上萬個基因在細胞中的相對或絕對豐度,不同條件(細胞周期的不同階段、藥物作用時間、腫瘤類型、不 同病人等)下的全基因組表達數(shù)據(jù)就構(gòu)成了一個G N的數(shù)據(jù)矩陣 M,通常情況下G N,其中每一個元素Xj表示第i個基因在第j個條件下的表達水平值 (在多數(shù)應(yīng)用情況下,表示的是 Ratio值或log(Ratio)值),行向量Xj. =(Xixi2,,xiN )代表基因i在N個條件下的表達水平,稱為基因i的表達譜,列向量xj=(x1i,x2i,xGi)T代表某一條件下的各基因的表達水平。XiiX21xG

23、1X12X22aXG2XlNX2N(8-1)注意排版,統(tǒng)一。公式背景為白底。對基因表達數(shù)據(jù)進行分類、 聚類等數(shù)據(jù)分析之前, 往往需要進行預(yù)處理, 包括對丟失數(shù) 據(jù)進行填補、清除不完整的數(shù)據(jù)或合并重復(fù)數(shù)據(jù)等數(shù)據(jù)清洗,根據(jù)分析的目的進行數(shù)據(jù)過濾,以及針對分析方法選擇適當?shù)臄?shù)據(jù)轉(zhuǎn)換等預(yù)處理方法。數(shù)據(jù)清洗是數(shù)據(jù)分析前必須進行的一項工作,對于基因表達數(shù)據(jù),目的是去除表達水平是負值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù)(單個異常大或小的尖峰信號 ),同時處理缺失數(shù)據(jù)。微陣列實驗得到的數(shù)據(jù)一般是經(jīng)過歸一化處理的,每個點的信號強度是前景信號減去背景信號,因此有時會出現(xiàn)負值或很小的值,顯然負值是沒有生物學(xué)意義的。對于

24、這些數(shù)據(jù)點, 通過數(shù)據(jù)過濾步驟可以置為缺失或賦予統(tǒng)一的數(shù)值,例如對于寡核苷酸芯片數(shù)據(jù),將低于100的數(shù)據(jù)全部設(shè)置為100。微陣列表達數(shù)據(jù)由于實驗條件和芯片的因素,檢測得到的信號 強度往往與細胞中實際的mRNA豐度之間沒有對應(yīng)關(guān)系,因此,通常是采用兩個條件下的信號強度的比值,例如在 cDNA微陣列雙色實驗中,最后得到的往往是Ratio值。而寡核苷酸單色實驗的結(jié)果是信號強度,然而在處理一組數(shù)據(jù)時,也往往選擇一個樣本作為對照樣本,將實驗數(shù)據(jù)轉(zhuǎn)換成 Ratio值。在計算Ratio值時,如果參考樣本的信號強度很小,就可能得 到很大的 Ratio。如果一個基因譜中僅僅存在單個特別大的Ratio值,稱之為異

25、常數(shù)據(jù)點(outlier),這往往是由于噪聲造成的。對于這個異常數(shù)據(jù)點,必須進行去除。數(shù)據(jù)的缺失對 于某些后續(xù)數(shù)據(jù)分析方法(例如層次式聚類和PCA )來說有著非常大的影響,甚至是致命性的,這時必須采取相應(yīng)的方法。一種方法是直接過濾掉這些存在缺失數(shù)據(jù)項的行向量或列 向量。另一種方法是設(shè)定閾值, 計算一個基因表達譜中的缺失項數(shù)目,如果達到該閾值,則將該基因表達譜從數(shù)據(jù)矩陣M中刪除;如果沒有達到閾值但存在缺失項,對這些缺失項可以進行插值。以0代替或用基因表達譜的平均值或中值進行代替,這些方法比較簡單,但是否與真實值接近,很難進行評估。較為復(fù)雜和可靠的方法是,分析基因表達譜的模式, 從中得到相鄰數(shù)據(jù)點

26、之間的關(guān)系,根據(jù)這種關(guān)系,利用相鄰數(shù)據(jù)點估算得到缺失值。這種方法類似于k近鄰方法,需要有足夠的完整的模式來發(fā)現(xiàn)有缺失值的相鄰模式,需要有足夠的值來確定它們的鄰居。在細胞中,基因表達有時空特異性,在某一條件下,發(fā)生表達的基因占基因總數(shù)的少部分,而大多數(shù)基因僅維持基礎(chǔ)轉(zhuǎn)錄或不轉(zhuǎn)錄,轉(zhuǎn)錄本豐度很小,因此微陣列實驗得到的數(shù)據(jù)矩陣中存在大量的基因表達譜曲線是平坦的,即基因表達水平變化很小。對于這些基因,往往不是生物學(xué)家所關(guān)心的,而它們的存在,卻會大大增加數(shù)據(jù)分析的復(fù)雜性,而且會對一些分析方法的結(jié)果有干擾。 對這些數(shù)據(jù)進行過濾是非常有必要的,可以給出一定的比例, 使存在的基因占總數(shù)的多少, 這是與分析目的

27、相密切相關(guān)的,例如是分析細胞周期, 可以多保留一些基因,而對于腫瘤特異基因表達譜分析,可以少保留一點基因。 過濾這些基因所采用的標準有:基因表達譜中最大值與最小值的差;標準差;均方根;絕對值大于閾值的數(shù)據(jù)個數(shù)等。根據(jù)分析的對象和目的,可以選擇以上一個或多個標準,確定閾值,來選擇基 因表達譜?;虮磉_譜數(shù)據(jù)經(jīng)過過濾,在進行聚類分析等操作前,往往還需要進行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù) 變換是將數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形式,可以根據(jù)需要構(gòu)造出新的數(shù)據(jù)屬性以幫助理解分析數(shù)據(jù)的特點,或者將數(shù)據(jù)規(guī)范化, 使之落在一個特定的數(shù)據(jù)區(qū)間中。 因此,數(shù)據(jù)轉(zhuǎn)換包括 對數(shù)轉(zhuǎn)換和標準化兩個過程。許多DNA微陣列實驗的結(jié)果是測量樣本與

28、對照樣本間信號強度的Ratio值,對于Ratio值,在大多數(shù)情況下是轉(zhuǎn)換到對數(shù)(log)空間中進行處理,常用的對數(shù)底為2, e, 10??紤]時間序列上的基因表達數(shù)據(jù),實驗結(jié)果是相對于0時刻的表達水平。如 圖8.1所示,假設(shè)在時間點1,基因的表達水平?jīng)]有改變,在時間點2,上調(diào)2倍,而時間點3,下調(diào)2倍,原始的比率值分別為1.0、2.0、0.5。在大多數(shù)應(yīng)用中,需要把上調(diào)2倍和下調(diào)2倍看作是變化的相同幅度,只是方向不同。在Ratio空間中,時間點1和2之間的差異是+1.0,而時間點1和3之間是-0.5,從數(shù)學(xué)角度看,上調(diào) 2倍的數(shù)值是下調(diào)2倍的2倍。而在log空間中,(為 了簡化,用2為底),這三

29、個數(shù)據(jù)點分別為 0、1.0、-1.0,上調(diào)2倍與下調(diào)2倍是關(guān)于0對 稱的。因此,對數(shù)轉(zhuǎn)換可以使小于1的值變大,大于1的值變小,從而使它們關(guān)于0對稱化, 這種變換是否反映了一定的生物學(xué)意義,能更直觀的了解基因的上調(diào)或下調(diào)的幅度?尚沒有定論,但是對于大多數(shù)基因表達數(shù)據(jù)分析過程,都是在log空間中進行的。數(shù)據(jù)點圖8.1表達數(shù)據(jù)的 Ratio和log2(Ratio)表示數(shù)據(jù)的標準化是將所有的數(shù)據(jù)轉(zhuǎn)換到同一個范圍內(nèi), 這樣做的好處是方便比較和計算相 關(guān)系數(shù),缺點是在標準差接近 0的時候,會產(chǎn)生大的噪聲,這也是首先要進行數(shù)據(jù)過濾的一 個重要理由。數(shù)據(jù)標準化按如下公式進行,XijXij -XiN_(Xj -

30、Xi)2j壬8.2_NXi =N a Xj8.3j 1通過標準化,使得每個基因表達譜的平均值為0,標準差為1。如果要求所有的數(shù)據(jù)在0,1之間,還需要進行如下轉(zhuǎn)換X =(X - Xmin ) /(xmax - xmin )xmin = min為公2,XnXmax = maxxi,X2,,Xn 8.4而要求數(shù)據(jù)滿足a,b,則變換如下:-(b-a)(x8.5xaXmax - xmin還有一種數(shù)據(jù)標準化方法是數(shù)據(jù)的中心化。對于來自細胞系的大量腫瘤樣本與一個共同的對照樣本比較,對于每一個基因,都有一系列的Ratio值,相對于對照樣本中那個基因的表達水平。因為對照樣本通常對實驗沒有什么幫助,對照樣本中的基

31、因表達量是獨立于分析的。這樣可以通過調(diào)整每一個基因的數(shù)值來反映系列觀察值的變化,例如平均值或者中值。 這就是平均值/中值中心化,中心化可以減少參考樣本的影響。中心化數(shù)據(jù)同樣可以用于去 除某些類型的偏差。許多雙色熒光雜交實驗的結(jié)果沒有校正Ratio值的系統(tǒng)偏差,它們是由于RNA數(shù)量差異,標記效率和圖像獲取參數(shù)所造成的。這樣的偏差對于所有的基因與一個 固定數(shù)值的Ratio有放大的效應(yīng)。在log空間的平均值和中值中心化有校正這種偏差的效果。 數(shù)據(jù)中心化是基于這樣的一種假設(shè),在特定的實驗中,基因的平均值期望比率是1.0(在log空間中為0)。通常,更多的是使用中值中心化。目前對數(shù)據(jù)預(yù)處理這種策略的作用

32、還不是很清楚,還沒有人進行系統(tǒng)的研究, 提供有說服力的證據(jù)來幫助研究人員針對特定的任務(wù)選擇特定的數(shù)據(jù)預(yù)處理的策略和方法。在具體應(yīng)用時,往往是根據(jù)分析目的和個人經(jīng)驗選擇不同的方法。8.3基因表達差異的顯著性分析在檢測基因表達的微陣列實驗中,有很大一部分是比較實驗,目的是比較兩個條件下的基因表達差異,從中識別出與條件相關(guān)的特異性基因,例如識別腫瘤特異性基因、 藥物特異響應(yīng)基因等。為了提高實驗的可靠性,對于兩個條件,往往有兩個以上的重復(fù)實驗,但是由 于微陣列實驗仍然很昂貴,不可能重復(fù)足夠的次數(shù)來滿足實驗數(shù)據(jù)分析的要求,因此需要采用一些比較復(fù)雜的方法來分析這些數(shù)據(jù)。對這些表達數(shù)據(jù)的分析目的就是要識別在

33、兩個條件下有顯著表達差異的基因。 何謂顯著表達差異?通常是指一個基因在兩個條件中表達水平的 檢測值在排除實驗、 檢測等因素外,達到一定的差異,具有統(tǒng)計學(xué)意義,同時也具有生物學(xué) 意義。分析方法有三類,一類稱之為倍數(shù)分析, 簡單估計在兩個條件中每個基因的表達水平 的比值,設(shè)定閾值得到表達差異顯著的基因;第二類方法是估計表達差異的置信度,采用的方法是t檢驗和方差分析;第三類是建模的方法,通過確定兩個條件下的模型參數(shù)是否相同 來判斷表達差異的顯著性,例如貝葉斯方法。8.3.1倍數(shù)分析早期基于CDNA微陣列技術(shù)的比較實驗,用倍數(shù)來分析基因表達水平差異,即計算兩 個條件下的表達水平的Ratio值。用Xgi

34、表示基因g在條件i中的表達水平測量值,因此,rg =Xg1/Xg2表示基因g在條件1和2中的表達水平比率。對于cDNA微陣列實驗,兩個條件的樣本同時與同一微陣列進行雜交實驗,得到的是成對數(shù)據(jù),對于每次實驗得到的數(shù)據(jù)計算rg,最后計算多次重復(fù)實驗的平均rg。而對于寡核苷酸芯片,首先分別計算兩個樣本的重復(fù)微陣列實驗的歸一化表達水平的平均值,然后計算其比率。當rg=l時,基因g的表達水平?jīng)]有改變,而 rg<1或rg>1意味著基因g在兩個條件下存在表達差異,特別是山<1表示基因在條件1是下調(diào)的,而rg>l,表示在條件1是上調(diào)的。在具體應(yīng)用中,如果一個基因的平均表達水平在兩個條件

35、下的變化超過一個常數(shù),典型的常數(shù)是2,即rg>2或<1/2,則認為該基因的表達差異是顯著的。然而,對表達數(shù)據(jù)仔細考察后提出,這樣簡單的2倍法并不能產(chǎn)生最優(yōu)的結(jié)果,因為因子2在不同的表達水平上有相當不同的顯著性。對于低表達水平的基因,其信噪比太低,用2倍法作為判斷條件太寬松,而對于高表達基因, 條件又太苛刻,往往小于2就有生物學(xué)意義上的表達差異顯著性。在具體應(yīng)用中,并沒有明確的閾值,往往根據(jù)分析的具體要求由數(shù)據(jù)分析者自行確定,目前也沒有關(guān)于這類簡單的倍數(shù)分析方法的假陽性率和假陰性率的深入研究報道。832 t 檢驗對于兩個條件下的多次重復(fù)實驗, 為了判斷基因的表達差異是否具有顯著性,

36、在應(yīng)用中 較多的采用假設(shè)檢驗,包括兩個條件下的 t檢驗和多個條件下的方差分析( ANOVA),這里 僅僅介紹t檢驗。零假設(shè)為H0:Ug1 =Ug2,與之對應(yīng)的備選假設(shè)是H! : Ug! = Ug2。 t統(tǒng)計量的計算公式如下:8.6t _xg1 -xg2gJsgj/m +Sg22 / n2_nj_2其中 Xgi =為 Xgij /口,Sgij 1n.1 二(Xgij ni 一1 j 總-Xgi)2,ni為某一條件下的重復(fù)實驗次數(shù)。如果t超過了某個由給定的置信水平確定的閾值,就拒絕零假設(shè),即認為基因g在兩個條件下的表達差異是顯著的。因為在t檢驗中,兩個總體平均值之間的距離被經(jīng)驗得到的標準差歸一化,

37、可以克服固定倍數(shù)閾值方法的一些缺點。然而,對于微陣列數(shù)據(jù)的t檢驗的基本問題是,即使用當前的高通量檢測技術(shù),實驗仍然是花費很大或者實驗過程很冗長,重復(fù)次數(shù)ni經(jīng)常較小,n產(chǎn)2、3的小樣本仍然非常普通。由于樣本量小,導(dǎo)致總體方差被嚴重低估,得到的t值就較大,因此會導(dǎo)致較高的假發(fā)現(xiàn)率(FDR, False Discovery Rate),即通過t檢驗得到的結(jié)果中表達差異不顯著的基因數(shù)目較多。這樣,需要更好的分析方法來克服這 些缺點。在t假設(shè)檢驗中,經(jīng)常使用的顯著性水平是p=0.01,其意思是在零假設(shè)正確的情況,進行100次抽樣,會有1次錯誤地拒絕了零假設(shè)。對于微陣列實驗,檢測的基因數(shù)目巨大,如果微陣

38、列上有10000個基因,采用p=0.01,將會有100個基因是由于偶然性而被錯誤認為是有表達差異顯著的。 這個數(shù)目已經(jīng)對后續(xù)的生物學(xué)分析可能會產(chǎn)生很大的干擾,從而導(dǎo)致t檢驗分析結(jié)果的不可靠或失去意義。為了解決這個問題,可以對 t檢驗進行了改進,降低由于分母上方差小而帶來的錯誤, 因此對t檢驗的計算公式修改如下:, Xg1 Xg2Sg 二 ap n1Xgii Xgi2 亠二 n2Xg2i -Xg228.78.8a = (1/ n11/n2)/(n n 2 -2)8.9變化可以較高。為了保證 dg獨立于基因表達,在分母上增加S0, S0的選擇疋最小化 d g的變化系數(shù)。通過對設(shè)計的一組對照樣本的分

39、析,可以確定閾值,dg大于閾值的基因被認為是假設(shè)dg的分布是獨立于基因表達水平的。因為較低的表達水平會使 sg的值較小,導(dǎo)致dg的表達差異顯著的。8.3.3貝葉斯分析由于微陣列數(shù)據(jù)噪聲大、波動大,而且在大量數(shù)據(jù)的背后還有很多相關(guān)變量不能被觀察 到,因此貝葉斯方法可以用來分析微陣列表達數(shù)據(jù)。貝葉斯分析可以簡單描述如下:P(M | D) =P(D | M )P(M )/P(D)8.10其中,P(M|D)表示由觀測數(shù)據(jù)集 D得到參數(shù)化模型 M = M (w)為真的概率,稱為后驗概率;P(M)稱為先驗概率,表示在沒有得到任何數(shù)據(jù)之前所估計的模型M為真的概率。P(D|M)是指似然度,表示從模型 M得到一

40、個觀測數(shù)據(jù)集 D的概率。貝葉斯推斷是通過參數(shù)估計和 模型選擇來實現(xiàn)任務(wù)的,最常用的方法是最大后驗概率(MAP)估計和最大似然(ML)估計。在用貝葉斯方法分析表達數(shù)據(jù)時, 首先假設(shè)在給定條件下, 一個基因的表達水平測量值 是獨立的,并滿足正態(tài)分布。根據(jù)經(jīng)驗, 這一假設(shè)是合理的, 特別是表達水平的對數(shù)大致服 從對數(shù)正態(tài)分布。對于重復(fù)實驗,也可以引入伽瑪分布、高斯/伽瑪混合分布等。一個基因在一種條件下的表達測量值可以用一個正態(tài)分布N(x; ",二2)來建模。對每個基因和每個條件,都對應(yīng)有一個雙參數(shù)模型w = C12),似然函數(shù)可以由下式給出:P(D | 點2) pi N%; ,2) 乂仟2

41、)"2©" z白心 8.11ii取遍所有的重復(fù)測量,C表示歸一化常數(shù)。似然度取決于充分統(tǒng)計量n、x和s2。先驗概率分布 P(,;2)的選擇有幾種,一般采用共扼先驗分布。先驗分布的四個超參數(shù)構(gòu)成向量二=(%, o'.0,;0 )P(*2) =C(;2)32W由叱8.122對于微陣列數(shù)據(jù),采用一個和二 相互不獨立的先驗分布很有意義。經(jīng)過一些代數(shù)運 算,可以推導(dǎo)出后驗分布具有與先驗分布相同的函數(shù)形式:2 2 2 28.13P(),二 | D,:)二 N(); J,二 / n)】(匚;'n,;n)其中Jn8.14222-on. 2八 0匚0 (n -1)s

42、- (x - Jo)九0 + n后驗分布后驗分布的參數(shù)以一種合理的方式將先驗分布的信息和數(shù)據(jù)信息結(jié)合了起來。是貝葉斯分析的基本對象,它包含了"和二2所有可能取值的相關(guān)信息,可以通過多種方法 進行估計。對于兩個條件下的每個基因的表達測量值都與兩個模型相關(guān),根據(jù)模型參數(shù)的不同可以判斷基因的表達差異是否顯著。貝葉斯方法部分地克服了由于實驗重復(fù)次數(shù)少造成的t檢驗的缺陷,如果實驗次數(shù)很少(2或3次),貝葉斯方法比t檢驗法效果好,如果有 5次重復(fù)實 驗,兩者結(jié)果相似。在重復(fù)次數(shù)為2時,貝葉斯方法的假陽性率會提高。8.4基因表達譜聚類分析對于基因表達譜數(shù)據(jù)的分析是目前生物信息學(xué)的研究熱點和難點。轉(zhuǎn)

43、化為數(shù)學(xué)問題,分析任務(wù)是從數(shù)據(jù)矩陣M中找出顯著性結(jié)構(gòu),結(jié)構(gòu)類型包括全局模型(model)和局部結(jié)構(gòu)(pattern),這些結(jié)構(gòu)可以對基因或者條件形成亞類,結(jié)合生物學(xué)解釋,這些亞類是細胞周期 特異性的或者是腫瘤類型特異性的。因此,對基因表達譜數(shù)據(jù)的分析是數(shù)據(jù)挖掘問題,所采用的方法包括通過可視化進行探索性數(shù)據(jù)分析(Exploratory Data Analysis )、描述建模(descriptive modeling)、分類、聚類和回歸等。目前,基因表達譜分析所采用的方法主要是聚類,其目的就是將基因或條件分組,對于條件之間存在時間依賴關(guān)系的基因表達譜,更多的是對基因進行分組;而對于不同來源的腫瘤

44、樣本,首先是確定特征基因,然后獲取這些特征基因的表達譜數(shù)據(jù)子集,對條件進行分類,從而可以獲取與腫瘤類型相關(guān)的特征,這些特征也稱為基因組指紋(genomic fingerprint)或簽名(sig nature),它們可以作為腫瘤的臨床診斷標準或藥效的評價標準。因為從數(shù)學(xué)的角 度,對行或?qū)α羞M行聚類所用的方法是一樣的,不同的是對列進行分析時維度較大,樣本數(shù)較小,結(jié)合生物學(xué)背景知識,通常需要降維,這個過程也稱特征基因的選擇過程,可以通過行向量的一些統(tǒng)計特征,例如方差、信息增益等,也可以用遺傳算法等優(yōu)化搜索算法來獲取 特征基因。因此,以下部分主要是針對基因分組來介紹聚類算法。從數(shù)學(xué)的角度,聚類得到的

45、基因分組,一般是組內(nèi)各成員在某數(shù)學(xué)特征上彼此相似,但與其它組中的成員不同。從生物學(xué)的角度,聚類分析方法所隱含的生物學(xué)意義(或基本前提) 是,組內(nèi)基因的表達譜相似,它們可能有相似的功能。當然,功能這個詞太普通以至不能精確和定量,太廣以至不能特指和特定意義。產(chǎn)物有相同功能的編碼基因(例如對其它蛋白質(zhì)有磷酸化作用),不一定共享相似的轉(zhuǎn)錄模式。相反,有不同功能的基因可能因為巧合或隨 機擾動而有相似的表達譜。盡管有許多意外的情況存在,大量功能相關(guān)的基因的確在相關(guān)的一組條件下有非常相似的表達譜,特別是被共同的轉(zhuǎn)錄因子共調(diào)控的基因,或者它們的產(chǎn)物構(gòu)成同一個蛋白復(fù)合體,或者參與相同的調(diào)控路徑。這就是在具體應(yīng)用

46、中,通過連坐(guilt-by-association)證據(jù),根據(jù)一個簡單的有相似表達模式的基因聚類,可以指派未知基因的功能。聚類分析是模式識別和數(shù)據(jù)挖掘中普遍使用的一種方法,是基于數(shù)據(jù)的知識發(fā)現(xiàn)的有效方法,特別適用于模式分類數(shù)不知道的情況。從機器學(xué)習(xí)的角度來看,聚類分析可以分為兩類,即有監(jiān)督聚類和無監(jiān)督聚類。在有監(jiān)督聚類中,對于基因表達譜數(shù)據(jù),首先對基因進行功能分類,然后選擇這些基因的表達譜作為訓(xùn)練集,通過有監(jiān)督學(xué)習(xí)獲取每一功能類的特征模式,利用這些特征模式,可以構(gòu)建分類器,對未知功能的基因根據(jù)表達譜進行分類,從而能夠?qū)ξ粗δ艿幕蝾A(yù)測功能,常用的方法有支持向量機、人工神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯

47、分類、多元logistic回歸等。無監(jiān)督聚類不需要任何先驗領(lǐng)域知識,根據(jù)數(shù)學(xué)特征提取分類標準,對數(shù)據(jù)進行分類,這種數(shù)學(xué)特征的例子有統(tǒng)計平均值、相關(guān)系數(shù)、協(xié)方差矩陣的本征值及本征向量等。無監(jiān)督聚類在基因表達數(shù)據(jù)分析中應(yīng)用的很多,主要有層次式聚類、k平均、自組織特征映射網(wǎng)絡(luò)、譜聚類等。本節(jié)將對在基因表達數(shù)據(jù)分析中常用的聚類方法進行 具體介紹。841相似性度量函數(shù)對基因表達譜進行聚類分析之前,必須首先確定反映不同基因表達譜相似程度的度量函 數(shù),根據(jù)該函數(shù)可以將具有相似程度高的基因聚為一類。在實際計算中,還可以用距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個基因表達譜之間的距離。距離越小,表達模式越相近,

48、反之,則表達模式差異大。常見的相似性度量有距離、點積、相關(guān)系數(shù)( correlation coefficient )、互信息(mutual in formation )等。假設(shè)兩個基因表達譜分別為 X= (xi,x 2,x m)和丫= (yi,y 2,y m),距離 函數(shù)d(X , Y)必須滿足如下條件:d(X , Y)仝 0d(X , Y) = d(Y , X) d(X , Y) = 0 if X = Y d(X , Y) W d(X, Z) + d(Z , Y)歐氏距離(Euclidean distanee)是一個通常采用的距離定義,與測度的選擇無關(guān),它是 在m維空間中兩個點之間的真正距離

49、,兩個基因表達譜之間的歐氏距離計算公式如下:1 |l_mD(X,Y)二以-yj28-15m Y y相關(guān)系數(shù)也是常用的相似性度量函數(shù),計算公式如下:m8.16S(X,Y)二計(寧)(牛)i=d(Gi 'Goffseti 4,m8.17其中,GOffset是G的各分量的均值,G是標準方差。用上述兩種相似性度量,可以找出表達模型相同或者變化趨勢相同的基因,如圖8.2(a)、(b)所示。歐氏距離、相關(guān)系數(shù)可以反映基因之間的共表達關(guān)系,兩個基因表達譜間的距離小于或相關(guān)系數(shù)大于某個給定的閾值,就可以認為它們之間是共表達的。距離和相關(guān)系數(shù)之間存在相關(guān)性,在具體應(yīng)用時,可以根據(jù)需要進行轉(zhuǎn)換,例如 d=

50、1-r。距離和相關(guān)系數(shù)反映的都是基因表達譜之間的相似性,這種相似性反映了基因的共表達行為,而基因的行為是復(fù)雜的,它們之間存在調(diào)控和被調(diào)控的關(guān)系,或者存在調(diào)控鏈,例如基因A調(diào)控B, B調(diào)控C,調(diào)控還有正性調(diào)控和負性調(diào)控之分。對于這些調(diào)控關(guān)系,它們的 表達譜往往是不相似的,或者存在時延、或者存在反相,而基因表達的幅度也可能不相等。如何從數(shù)據(jù)中發(fā)現(xiàn)這些復(fù)雜的基因關(guān)系呢?互信息可能是一種有用的度量指標,其定義如下mH(X) p(Xi)log2P(xJi38.18MI(X,Y)是向量X和Y的互信息,H (X是X的熵。(c)兩個基因的調(diào)控制輸入一樣,但是調(diào)控結(jié)果不一樣,甚至相反。MI( X, Y)=H(X

51、)+H( Y -H( X,Y)NMI ( X,Y)=MI (X,Y)/maxH ( X),H( Y)8.19NMI稱為歸一化互信息,它獨立于單個信息熵,抓住了模式上的相似性。互信息聚類分 析,沒有規(guī)則上的約束。不象歐氏距離,MI不僅能確定負相關(guān)和非線性相關(guān),同樣可以反應(yīng)正線性相關(guān)。因此,基于MI的聚類可能共享輸入,但是對這些輸入有不同的動力學(xué)過程。 例如A,B得到C輸入,A是上調(diào),B是下調(diào)。目前,還沒有理論來指導(dǎo)如何選擇最好的相似性度量,也許一個“正確”的距離在表達模式空間是不存在的,選擇依賴于我們要問的問題。已知的共調(diào)控的基因在不同生物和基因 調(diào)控網(wǎng)絡(luò)中標準集可能有利于發(fā)現(xiàn)理論上的相似性度量

52、。842無監(jiān)督聚類方法(?)對于基因表達譜的聚類問題,由于目前對基因表達的系統(tǒng)行為了解得不全面,沒有聚類的先驗知識,所以通常采用無監(jiān)督聚類方法。在基因表達數(shù)據(jù)分析方面,層次式聚類、k均值、自組織映射神經(jīng)網(wǎng)絡(luò)是應(yīng)用中的常用方法。下面主要介紹這幾種常用的聚類方法,并簡單介紹一些其它方法。& 4。 2。1 .簡單聚類假設(shè)有G個基因,它們的表達譜分別用向量表示為XX2.,,XG.。令任意一個基因的表達向量為第一個聚類的中心z1 ,假設(shè)選擇zX1。然后計算X2.到z1的距離D1,如果D21大于給定的閾值 T,則說明X2.不屬于第一類,應(yīng)該分到另外的類。在這種情況下,建立一個新的聚類中心Z2 =

53、X2.。如果8小于閾值T,則將X2.分到第一類中。接著處理其它基因,在處理第i個基因時,首先計算該基因的表達譜與現(xiàn)有各類中心的距離,假設(shè)與第j類的距離D最小,并且 D<T,則將基因i分配到第j類;否則生成一個新類,該類的中心為第 i 個基因的表達向量。簡單聚類算法的結(jié)果與第一個聚類中心的選擇、基因的順序、閾值T以及基因表達譜在其空間的分布有關(guān)。該方法對于給定的一組表達數(shù)據(jù)模式進行初步分類提供了一種快速的算 法。& 4。2。2 .層次聚類法層次聚類法,在統(tǒng)計分析中也稱為系統(tǒng)聚類法,原理與算法與第六章所介紹的系統(tǒng)發(fā)生樹連鎖構(gòu)造方法類似,所不同的只是將所分析的數(shù)據(jù)由生物分子序列換成了這

54、里的基因表達譜。該方法在基因表達譜聚類分析中是常用方法,它的優(yōu)點是容易理解和實現(xiàn),所得到的結(jié)果以樹狀圖的形式表示,可以直觀地觀察基因之間的相互關(guān)系,尤其是類與類之間的關(guān)系。但是,基因表達譜的數(shù)量很多,往往要多于系統(tǒng)發(fā)生樹分析時的物種數(shù)量,而且基因之間的相互關(guān)系信息也沒有物種之間的多,所以對聚類結(jié)果的后續(xù)分析要比系統(tǒng)發(fā)生樹分析復(fù)雜的 多。對于表達譜聚類的結(jié)果還需要進一步分析基因的功能或者基因的序列特征,要通過剪枝才能得到分類,而剪枝的過程帶有更多的主觀性,這會導(dǎo)致丟失一些重要的信息或包括一些無關(guān)的信息。此外,在構(gòu)建系統(tǒng)樹時,已被合并的向量不再參與以后的分類,這會導(dǎo)致聚類 結(jié)果與向量的次序有關(guān),所

55、以被認為是一種局部最優(yōu)解的方法。& 4。2。3. K均值聚類K均值聚類在數(shù)據(jù)劃分上不考慮類的分層結(jié)構(gòu)問題,該算法使待聚類的所有樣本到聚類中心的距離平方和最小,這是在誤差平方和準則的基礎(chǔ)上得到的。K均值聚類算法的基本過程如下:(1) 任意選取K個基因表達向量作為初始聚類中心Zi, Z2,Zk,在沒有先驗知識的情況下,一般選擇前 K個基因;(2) 反復(fù)迭代計算。在第I次迭代過程中,如果| X-Zj(1)|:| X-Zj(1)|(i=1,2,K,i j),則將X所代表的基因歸于第j類。按照上述辦法處理所 有的基因;(3) 經(jīng)過上述處理,聚類可能發(fā)生變化,因此需要重新計算K個新聚類中心:1Zj

56、(l 1)Xj=1,2,,K8.20N j Xfj(l)其中fj(l)為第I次迭代中第j個聚類的基因集合,N為該集合中基因的個數(shù)。(4)對于所有的聚類中心,如果Zj(l+1)= Z(l)(j=1,2,K),則迭代結(jié)束,得到最后的聚類結(jié)果;否則轉(zhuǎn)第 2步,繼續(xù)進行迭代計算。聚類中心的個數(shù) K、初始聚類中心的選擇、基因排列的順序以及基因表達數(shù)據(jù)的分布影 響聚類的結(jié)果,當基因表達模式類別之間分離較遠時,該算法可以取得令人滿意的聚類分析結(jié)果。& 4。2。4 .自組織映射神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)技術(shù)在模式識別方面有著獨特的優(yōu)勢,在生物信息學(xué)中的應(yīng)用也非常廣泛,如基因識別、蛋白質(zhì)結(jié)構(gòu)預(yù)測等。神經(jīng)網(wǎng)絡(luò)能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論