基因表達(dá)譜芯片的數(shù)據(jù)分析_第1頁
基因表達(dá)譜芯片的數(shù)據(jù)分析_第2頁
基因表達(dá)譜芯片的數(shù)據(jù)分析_第3頁
基因表達(dá)譜芯片的數(shù)據(jù)分析_第4頁
基因表達(dá)譜芯片的數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 世界華人消化雜志2006年1月8日; 14(1: 68-74ISSN 1009-3079 CN 14-1260/R文獻(xiàn)綜述 REVIEW基因表達(dá)譜芯片的數(shù)據(jù)分析吳 斌, 沈自尹吳斌, 沈自尹, 復(fù)旦大學(xué)華山醫(yī)院中西醫(yī)結(jié)合研究所上海市200040國家自然科學(xué)基金資助項(xiàng)目, No. 90409001通訊作者: 沈自尹, 200040, 上海市復(fù)旦大學(xué)華山醫(yī)院中西醫(yī)結(jié)合研究所. wuubin電話: 021-*-6311收稿日期: 2005-09-10 接受日期: 2005-12-02摘要基因芯片數(shù)據(jù)分析的目的就是從看似雜亂無序的數(shù)據(jù)中找出它固有的規(guī)律, 本文根據(jù)數(shù)據(jù)分析的目的, 從差異基因表達(dá)分析

2、、聚類分析、判別分析以及其它分析等角度對芯片數(shù)據(jù)分析進(jìn)行綜述, 并對每一種方法的優(yōu)缺點(diǎn)進(jìn)行評述, 為正確選用基因芯片數(shù)據(jù)分析方法提供參考.關(guān)鍵詞: 基因芯片; 數(shù)據(jù)分析; 差異基因表達(dá); 聚類分析; 判別分析吳斌, 沈自尹. 基因表達(dá)譜芯片的數(shù)據(jù)分析. 世界華人消化雜志 2006;14(1:68-740 引言 表達(dá)譜的聚類, 最終整合雜交點(diǎn)的生物學(xué)信息 , 發(fā)現(xiàn)基因的表達(dá)譜與功能可能存在的聯(lián)系. 然而每次實(shí)驗(yàn)都產(chǎn)生海量數(shù)據(jù), 如何解讀芯片上成千上萬個基因點(diǎn)的雜交信息, 將無機(jī)的信息數(shù)據(jù)與有機(jī)的生命活動聯(lián)系起來, 闡釋生命特征和規(guī)律以及基因的功能, 是生物信息學(xué)研究的重要課題1. 基因芯片的數(shù)據(jù)

3、分析方法從機(jī)器學(xué)習(xí)的角度可分為監(jiān)督分析和非監(jiān)督分析, 假如分類還沒有形成, 非監(jiān)督分析和聚類方法是恰當(dāng)?shù)姆治龇椒? 假如分類已經(jīng)存在, 則監(jiān)督分析和判別方法就比非監(jiān)督分析和聚類方法更有效率。根據(jù)研究目的的不同2,3, 我們對基因芯片數(shù)據(jù)分析方法分類如下: (1差異基因表達(dá)分析: 基因芯片可用于監(jiān)測基因在不同組織樣品中的表達(dá)差異, 例如在正常細(xì)胞和腫瘤細(xì)胞中; (2聚類分析: 分析基因或樣本之間的相互關(guān)系, 使用的統(tǒng)計(jì)方法主要是聚類分析; (3判別分析: 以某些在不同樣品中表達(dá)差異顯著的基因作為模版, 通過判別分析就可建立有效的疾病診斷方法.1 差異基因表達(dá)分析(difference expre

4、ssion, DE對于使用參照實(shí)驗(yàn)設(shè)計(jì)進(jìn)行的重復(fù)實(shí)驗(yàn), 可以對通過對基因芯片的ratio值從大到小排序, ratio 是cy3/cy5的比值, 又稱R/G值. 一般0.5-2.0范圍內(nèi)的基因不存在顯著表達(dá)差異, 該范圍之外則認(rèn)為基因的表達(dá)出現(xiàn)顯著改變. 由于實(shí)驗(yàn)條件的不同, 此閾值范圍會根據(jù)可信區(qū)間應(yīng)有所調(diào)整5,6. 處理后得到的信息再根據(jù)不同要求以各種形式輸出, 如柱形圖、餅形圖、點(diǎn)圖等. 該方法的優(yōu)點(diǎn)是需要的芯片少, 節(jié)約研究成本; 缺點(diǎn)是結(jié)論過于簡單, 很難發(fā)現(xiàn)更高層次功能的線索; 除了有非常顯著的倍數(shù)變化的基因外, 其它變化小的基因的可靠性就值得懷疑了; 這種方法對于預(yù)實(shí)驗(yàn)或?qū)嶒?yàn)初篩是

5、可行的7. 此外倍數(shù)取值是任意的, 而且可能是不恰當(dāng)?shù)? 例如, 假如以2倍為標(biāo)準(zhǔn)篩選差異表達(dá)基因, 有可能沒有1條入選, 結(jié)果敏感性為0, 同樣也可能出現(xiàn)很多差異表達(dá)基因, 結(jié)果使人認(rèn)為倍數(shù)篩選法是在盲目的推測8,9.1.2 t檢驗(yàn)(t-test 差異基因表達(dá)分析的另一種方法是t檢驗(yàn)10, 當(dāng)t超過根據(jù)可信度選擇的標(biāo)準(zhǔn)時, 比較的兩樣本被認(rèn)為存在著差異. 但是t檢驗(yàn)常常受到樣本量的限制, 由于基因芯片成本昂貴, 重復(fù)實(shí)驗(yàn)又很費(fèi)時, 小樣本的基因芯片實(shí)驗(yàn)是很常見的, 但是小樣本導(dǎo)致了不可信的變異估計(jì). 為了克服這種缺點(diǎn), 研究者提出了調(diào)節(jié)性t檢驗(yàn)(regularized t-test, 它是根

6、據(jù)在基因表達(dá)水平和變異之間存在著相互關(guān)系, 相似的基因表達(dá)水平有著相似的變異這個經(jīng)驗(yàn), 應(yīng)用貝葉斯條®背景資料基因芯片技術(shù)的出現(xiàn)為生命科學(xué)的研究帶來了革命性的變化, 然而基因芯片技術(shù)產(chǎn)生的海量數(shù)據(jù)成為制約該技術(shù)應(yīng)用的瓶頸. 了解基因芯片數(shù)據(jù)分析的研究進(jìn)展對于正確應(yīng)用該技術(shù)具有重要的意義.本文對基因芯片數(shù)據(jù)分析方法綜述全面、系統(tǒng), 最重要的是對每一種方法進(jìn)行了評述.吳斌, 等. 基因表達(dá)譜芯片的數(shù)據(jù)分析 69 因表達(dá)水平, 可以對任何基因的變異程度估計(jì)進(jìn)行彌補(bǔ). 這種方法對于基因表達(dá)的標(biāo)準(zhǔn)差估11是推斷兩組或多組資料的總體均數(shù)是否相同, 檢分析需要參照實(shí)驗(yàn)設(shè)計(jì), 參照樣本常用多種細(xì)胞的

7、mRNA 混合而成, 由于所有的細(xì)胞同時表達(dá)的基因眾多, 結(jié)果低表達(dá)基因在樣本混合后就被稀釋而減少了參照樣本的代表性, 因此, 增加參照樣本的細(xì)胞不會提高參照樣本的代表性13. 方差分析能計(jì)算出哪些基因有統(tǒng)計(jì)差異, 但它沒有對那些組之間有統(tǒng)計(jì)差異進(jìn)行區(qū)分, 比如用單因素方差分析對A 、B 、C 、D 4組進(jìn)行分析, 對于某一個基因, 方差分析能夠分析出A 組與B 、C 、D 組之間有差異, 但是B 、C 、D 之間無統(tǒng)計(jì)學(xué)意義. 這就需要使用均值間的兩兩比較(post-hoc comparisons檢驗(yàn), 該檢驗(yàn)是對經(jīng)方差分析后的基因進(jìn)行下一水平更細(xì)節(jié)的分析14. 即t -檢驗(yàn)只能用于檢驗(yàn)兩樣

8、本中均值是否存在顯著性差異, 而兩兩比較技術(shù)考慮了多于2樣本間均數(shù)的比較. 上述所有的參數(shù)分析方法必須平衡假陽rected P -value = P -value ×n(number of genes in test, 如果糾正P 值仍小于錯誤率(如0.05, 則該基因?qū)儆谟斜磉_(dá)差異的基因. (2Bonferroni Step-down(Holm法, 這種校正方法與邦弗朗尼很相似, 但沒有前者嚴(yán)格. 主要思想如下: 每個基因的P 值從低到高排序, Corrected P -value =P -value ×n(n-1/n-2, 如果糾正P 值仍小于錯誤率(如0.05, 則

9、該基因?qū)儆谟斜磉_(dá)差異的基因. (3Westafall &Young 參數(shù)法, 前面2種方法都是單獨(dú)對P 值進(jìn)行糾正, 本方法通過同時對所有基因進(jìn)行排序, 充分利用基因間的獨(dú)立性進(jìn)行P 值糾正. 每個基因的P 值是按原始資料的排序進(jìn)行計(jì)算; 將資料劃分為人工組和對照組而產(chǎn)生新的數(shù)據(jù). 采用新數(shù)據(jù)計(jì)算所有基因的P 值, 新P 值再與以前的P 值進(jìn)行比較, 上述過程重復(fù)很多次, 最后計(jì)算出糾正P 值. 如果糾正P 值仍小于錯誤率(如0.05, 則該基因?qū)儆谟斜磉_(dá)差異的基因. (4Benjamini & Hochberg 假陽性率法, 該方法是4種方法中最不嚴(yán)謹(jǐn)?shù)姆椒? 因此可能產(chǎn)

10、生很多的假陽性和假陰性, 其方法如下: 首先對每一個基因的P 值由小到大排序, 最大的P 值保持不變, 其它基因按下列公式計(jì)算P 值, Corrected P -value = P value ×(n/n-1以此類推, 若P <0.05則為有差異基因. 上述前3種方法可概括為誤差率判斷族(family-wise error rate, FWER, 它的特點(diǎn)是允許很少的假陽性基因發(fā)生, covery rate, FDR是允許一定率的假陽性基因發(fā)生. 總之, 假陽性率(FDR在差異表達(dá)與控制假.1.4 非參數(shù)分析(nonparametric analysis 由于微陣列數(shù)據(jù)存在&q

11、uot;噪聲"干擾而且不滿足正態(tài)分布假設(shè), 因此使用t -檢驗(yàn)和回歸模型進(jìn)行篩選的方法可能有風(fēng)險. 非參數(shù)檢驗(yàn)并不要求數(shù)據(jù)滿足特殊分布的假設(shè), 所以使用非參數(shù)方法對變量進(jìn)行篩選雖然粗放, 但還是可行的19. 目前用于基因表達(dá)譜數(shù)據(jù)分析的非參數(shù)方法除了傳統(tǒng)的非參數(shù)t -檢驗(yàn)(nonparametric t -test、Wilcoxon 秩和檢驗(yàn)(Wilcoxon rank sun test等外20, 一些新的非參數(shù)方法也應(yīng)用于基因表達(dá)譜數(shù)據(jù)的分析中, 如經(jīng)驗(yàn)貝葉斯法(empirical Bayes meth-od21、芯片顯著性分析(significance analysis of m

12、icroarray, SAM22、混合模型法(the mixture model method, MMM23等. 參數(shù)法的缺點(diǎn)是分析數(shù)據(jù)有假設(shè)檢驗(yàn), 比如改變樣本中的變異可明顯影響分析結(jié)果, 對同樣數(shù)據(jù)的轉(zhuǎn)換(如對數(shù), 對其分析結(jié)果也有明顯的影響. 非參數(shù)方法對于這種情況的發(fā)生更有效, 但是它對表達(dá)數(shù)據(jù)分析的敏感性不如參數(shù)方法.1.5 回歸分析(regression analysis 目前使用的一些簡單的參數(shù)分析方法是通過數(shù)據(jù)轉(zhuǎn)換(如對數(shù)來達(dá)到正態(tài)分布為假設(shè)前提的, 或者是估計(jì)的經(jīng)驗(yàn)分布, 然而這二種方法對基因表達(dá)數(shù)據(jù)可能都是不合理的, 非參數(shù)方法忽視了數(shù)據(jù)的分布, 而參數(shù)方法又會誤判數(shù)據(jù)的分

13、布24,25. 基因表達(dá)譜的回歸分析是可以處理多個基因變量間線性依存關(guān)系的統(tǒng)計(jì)方法, 于是研究者們提出了使用回歸分析基因表達(dá)譜數(shù)據(jù), 如Li et al 26相關(guān)報(bào)道1 吳斌, 林喬, 王米渠, 王建. 試論影響基因芯片實(shí)驗(yàn)設(shè)計(jì)的因素. 世界華人消化雜志 2005; 13: 1206-120970 ISSN 1009-3079 CN 14-1260/R 世界華人消化雜志 2006年1月8日 第14卷 第1期 使用互變量(Cox回歸方法分析基因表達(dá)譜數(shù)據(jù), 用于患者的生存率預(yù)判; Huang et al 27將線性回歸方法應(yīng)用于腫瘤的分類研究中.2 聚類分析(clustering analysi

14、s聚類分析的目的在于辨別在某些特性上相似的事物, 并按這些特性將樣本劃分成若干類(群, 使同類事物具有高度同質(zhì)性, 而不同類事物則有高度異質(zhì)性. 聚類分析是通過建立各種不同的數(shù)學(xué)模型, 它把基于相似數(shù)據(jù)特征的變量或樣本組合在一起. 歸為一個簇的基因在功能上可能相似或關(guān)聯(lián), 從而找到未知基因的功能信息或已知基因的未知功能. 但是由于使用數(shù)據(jù)轉(zhuǎn)換、歸一化等因素, 導(dǎo)致對聚類分析結(jié)果的影響較大; 此外, 聚類不管所聚的類別是否有意義28. (hierarchical clustering, HCL 分層聚類是將n個樣品各作為一類, 計(jì)算n 個樣品兩兩之間的距離,構(gòu)成距離矩陣, 合并距離最近的兩類為一

15、新類, 計(jì)算新類與當(dāng)前各類的距離29. 再合并、計(jì)算, 直至只有一類為止. 分層聚類是第一個被應(yīng)用于基因表達(dá)譜數(shù)據(jù)分析的聚類方法30, 由于結(jié)果的可視化和基因間關(guān)系的明確表現(xiàn), 廣泛地應(yīng)用于基因表達(dá)譜的腫瘤亞型分類和幸存率研究中31,32.將每個樣品歸類, 各類的重心代替初始凝聚點(diǎn), 根據(jù)歐氏距離將每個樣品不斷地歸類, 直至分類達(dá)到穩(wěn)定. K-均值算法是采用誤差平方和為準(zhǔn)則函數(shù)的動態(tài)聚類方法, 其計(jì)算快速, 適合于大規(guī)模的數(shù)據(jù)計(jì)算33. 如D'ambrosio et al 34為了理解肥大細(xì)胞增生的分子機(jī)制和尋找其鑒定的分子標(biāo)記, 選取肥大細(xì)胞增生癥患者和正常人的骨髓的單核細(xì)胞進(jìn)行基因

16、芯片實(shí)驗(yàn), 應(yīng)用K-均值聚類和分層聚類得到同一類的10個基因, 進(jìn)一步分析鑒定出3個基因?qū)儆谠摷膊〉暮蜻x標(biāo)記基因. 但是K-均值聚類也有不足之處, 它對初始凝聚點(diǎn)比較敏感, 如果初始凝聚點(diǎn)沒有選擇好就可能集合在標(biāo)準(zhǔn)功能值的局域極小值上. 而另一個問題在于它是完全無結(jié)構(gòu)的方法, 聚類的結(jié)果是無組織的35.2.3 自組織映射圖網(wǎng)絡(luò)(self-organizing map cluster-ing, SOM 神經(jīng)網(wǎng)絡(luò)中鄰近的各個神經(jīng)元通過側(cè)向交互作用彼此相互競爭, 自適應(yīng)地發(fā)展成檢測不同信號的特殊檢測器, 這就是自組織特征映射的含義. 點(diǎn)的自組織映射圖. 自組織映射圖允許對類進(jìn)行調(diào)整, 屬于監(jiān)督類聚類

17、36. 自組織映射圖分類標(biāo)準(zhǔn)明確; 優(yōu)化的次序好于其它聚類法, 在基因表達(dá)譜的數(shù)據(jù)分析中得到廣泛的應(yīng)用. 如Covell et al 37認(rèn)為多種腫瘤可能具有共同的基因表達(dá)譜, 他們選取了14種腫瘤和正常對照組織進(jìn)行基因表達(dá)譜研究, 結(jié)果自組織圖能完全將腫瘤和正常組織區(qū)分出來, 自組織圖對各種腫瘤的分辨率達(dá)到80%的準(zhǔn)確性, 其中對白血病、中樞神經(jīng)系統(tǒng)腫瘤、黑色素瘤、子宮癌、淋巴瘤有很好的判別作用, 對直腸癌、乳腺癌、肺癌的判別差.2.4 雙向聚類(two-way clustering, TWC 基因表達(dá)譜常采用單向聚類法(one-way clustering, 即要么以整個樣本中特性相似的基

18、因進(jìn)聚類, 或者以基因表達(dá)相似的樣本進(jìn)行聚類. 對樣本和w o-w a y clustering38, 目前基因表達(dá)譜的數(shù)據(jù)分析常用(plaid models. 基因剃須是通過基因的共同表達(dá)值或表達(dá)量來鑒定基因的亞類, 基因表達(dá)譜分析方法常用監(jiān)督進(jìn)行聚類, 沒有考慮一個基因可能屬于多個類. 基因剃須對基因或樣本進(jìn)行分類既可以是監(jiān)督的, 也可以是非監(jiān)督的. 基因剃須近年逐漸被應(yīng)用于基因表達(dá)譜的分析中, 如Hastie et al 39使用基因剃須方法分析了B 細(xì)胞淋巴瘤患者的基因表達(dá)譜, 鑒定了一小類可用于生存率預(yù)判的基因. 作者認(rèn)為基因剃須方法是一種潛在有用的基因表達(dá)譜數(shù)據(jù)分析方法. Jian

19、g et al 40使用了2種基因剃須方法篩選肺腺癌的標(biāo)志基因, 通過和正常組織的基因表達(dá)譜比較, 分別篩選到13條和10條, 其中5條是共同的. 格子模型的目的是分析基因芯片數(shù)據(jù)可解釋的生物結(jié)構(gòu), 即基因或樣本的亞類. 各類之間可以進(jìn)一步聚類, 從而獲得穩(wěn)定的、有意義的分層結(jié)構(gòu)41,42. 目前應(yīng)用格子模型進(jìn)行基因表達(dá)數(shù)據(jù)分析的實(shí)例還不多.2.5 混合聚類法 所謂混合聚類就是先非監(jiān)督(un-supervised聚類再監(jiān)督(supervised聚類. 其優(yōu)點(diǎn)是可以整合多種聚類方法的優(yōu)點(diǎn), 目前混合聚類受到越來越多研究者的關(guān)注, 如由于基因芯片數(shù)據(jù)的復(fù)雜性和多維性, 為利于基因表達(dá)譜數(shù)據(jù)的處理,

20、 有必要對復(fù)雜多維的原始數(shù)據(jù)進(jìn)行簡化處理, 為了解決這個問題, Wang et al 43提nd AB = (x i - y i 2 1/2 i = 1同行評價本文對基因表達(dá)芯片的數(shù)據(jù)分析方法進(jìn)行了綜述, 并對差異基因表達(dá)分析、聚類分析以及判別分析等分法的優(yōu)缺點(diǎn)進(jìn)行了評述, 文章選取的文獻(xiàn)較新穎,內(nèi)容較全面、表達(dá)較準(zhǔn)確,描述清晰、層次分明,可讀性較好, 反映了基因表達(dá)芯片數(shù)據(jù)分析方法的研究進(jìn)展水平, 對于如何 選用數(shù)據(jù)分析方法具有較好的參考價值.吳斌, 等. 基因表達(dá)譜芯片的數(shù)據(jù)分析 71 出了雙水平分析, 即首先使用自組織圖減少原始數(shù)據(jù)的多維性, 然后進(jìn)行了K-均值和分層聚類以建立樣本判別的

21、基因表達(dá)模型. H e r r e r oet al 44還論述如何將自組織圖和分層聚類組合成一個優(yōu)秀的工具用于基因表達(dá)譜的數(shù)據(jù)分析.3 判別分析(discriminant analysis判別分析能夠依據(jù)樣本的某些特性, 以判別樣本所屬類型. 與聚類分析不同的是, 判別分析是用某種方法將研究對象分成若干類的前提下, 建立判別函數(shù), 用以判定未知對象屬于已知分類中的哪一類. 基因判別分析(有監(jiān)督學(xué)習(xí)是在已有數(shù)據(jù)的基礎(chǔ)上建立分類器, 并利用所建立的分類器對未知樣品的功能或狀態(tài)進(jìn)行預(yù)測45,46. 目前使用的判別分析方法主要有: 支持向量機(jī)、決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)法等進(jìn)行判別47, Cho

22、et al 48應(yīng)用費(fèi)希爾判別方法分析腫瘤患者的基因表達(dá)譜資料以判別腫瘤的分型. 如Dangond et al 49將費(fèi)希爾判別方法應(yīng)用于計(jì)算肌萎縮側(cè)索硬化病的基因表達(dá)譜研究中. 3.2 貝葉氏網(wǎng)絡(luò)(bayesian networks 也被稱為因果網(wǎng)絡(luò)(causal networks, 是描述數(shù)據(jù)變量之間依賴關(guān)系的一種圖形模式, 是一種用來進(jìn)行推理的模型. 貝葉斯網(wǎng)絡(luò)為人們提供了一種方便的框架結(jié)構(gòu)來表示因果關(guān)系, 這使得不確定性推理在邏輯上更為清晰、更好理解50. 如Imoto et al 51結(jié)合貝葉斯網(wǎng)絡(luò)和生物學(xué)知識進(jìn)行基因表達(dá)譜數(shù)據(jù)的基因網(wǎng)絡(luò)分析, 并以釀酒酵母的基因表達(dá)譜數(shù)據(jù)為例進(jìn)行了

23、論證. Kim et al 52將貝葉斯網(wǎng)絡(luò)法應(yīng)用于時間系列的基因表達(dá)譜數(shù)據(jù)的基因網(wǎng)絡(luò)分析等.3.3 支持向量機(jī)(support vector machines, SVMs 支持向量機(jī)是數(shù)據(jù)挖掘中的一個新方法. 支持向量機(jī)能非常成功地處理回歸問題(時間序列分析和模式識別(分類問題、判別分析等諸多問題, 它通過訓(xùn)練一種"分類器"來辨識與已知的共調(diào)控基因表達(dá)類型相似的新基因53-55. 例如Williams et al 56為了鑒定出腎母細(xì)胞瘤復(fù)發(fā)的基因表達(dá)譜模型, 研究了27例腎母細(xì)胞瘤患者的腫瘤組織, 其中13例2 a 內(nèi)復(fù)發(fā), 對復(fù)發(fā)和未復(fù)發(fā)的腫瘤組織進(jìn)行基因芯片實(shí)驗(yàn),

24、并應(yīng)用支持向量機(jī)對基因表達(dá)譜數(shù)據(jù)進(jìn)行分析, 結(jié)果發(fā)現(xiàn)了一小類可能用于腫瘤預(yù)診的基因.3.4 決策樹(decision trees 決策樹是一種常用于預(yù)測模型的算法, 它通過將大量數(shù)據(jù)有目的的分類, 從中找到一些有價值的, 潛在的信息. 它的主要優(yōu)點(diǎn)是描述簡單, 分類速度快, 特別適合大規(guī)模的數(shù)據(jù)處理57. Dettling et al 58比較了不同決策樹算法對基因表達(dá)譜分析的影響. Mid-dendorf et al 59應(yīng)用決策樹方法研究了簡單生物的基因調(diào)節(jié)機(jī)制.3.5 人工神經(jīng)網(wǎng)絡(luò)法(artificial neural network, ANN ANN 是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的

25、結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型. 在這一模型中, 大量的節(jié)點(diǎn)(或稱"神經(jīng)元", 或"單元"之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò), 即"神經(jīng)網(wǎng)絡(luò)", 以達(dá)到處理信息的目的. 其優(yōu)勢是運(yùn)行分析時無需在心目中有任何特定模型, 而且, 神經(jīng)網(wǎng)絡(luò)可以發(fā)現(xiàn)交互作用效果(如年齡和性別的組合效果60. O'Neill et al 61將神經(jīng)網(wǎng)絡(luò)法應(yīng)用于淋巴瘤基因表達(dá)譜數(shù)據(jù)的分析, 該方法對淋巴瘤預(yù)后和診斷都具有較好的判別作用. Sawa et al 62對酵母屬基因表達(dá)譜數(shù)據(jù)進(jìn)行了歐氏距離、相關(guān)系數(shù)、相互信息和基于神經(jīng)網(wǎng)絡(luò)的聚類分析, 發(fā)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的聚類結(jié)果

26、較前3種方法更為合理.4 其他分析4.1 主成分分析(principal component analysis, PCA 在大規(guī)?;虮磉_(dá)數(shù)據(jù)的分析工作中, 由于組織樣本例數(shù)遠(yuǎn)遠(yuǎn)小于所觀察基因個數(shù), 如果直接采用前述聚類分析可能產(chǎn)生較大誤差, 故需要對聚類算法進(jìn)行改進(jìn). 目前已經(jīng)提出很多改進(jìn)的聚類方法, 其中較為流行的方法是應(yīng)用主成分分析方法對數(shù)據(jù)進(jìn)行分析63,64. 主成分分析的目的是要對多變量數(shù)據(jù)矩陣進(jìn)行最佳綜合簡化. 使用的方法是尋找這些變量的線性組合-稱之為主成分, 使這些主成分間不相關(guān). 為了能用盡量少的主成分個數(shù)去反映原始變量間提供的變異信息, 要求各主成分的方差從大到小排列, 第

27、一主成分最能反映數(shù)據(jù)間的差異. 主成分分析通過合并原來的維數(shù)得到更少的維數(shù)來表示對象, 同時要求新的維數(shù)必須盡可能地反映原有維數(shù)所反映的信息, 它有較少的信息丟失. 主成分分析有助于簡化分析和多維數(shù)據(jù)的可視化65. 如Crescenzi et al 66應(yīng)用主成分分析對60個腫瘤細(xì)胞株的基因表達(dá)譜數(shù)據(jù)進(jìn)行分析, 結(jié)果發(fā)現(xiàn)腫瘤分型相關(guān)的基因有1 375個, 主成分分析得到細(xì)胞運(yùn)動等5個獨(dú)立的成份. 主成分分析是把原來多個變量化為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計(jì)分析方法. 從數(shù)學(xué)角度來看, 這是一種降維處理技術(shù). 而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多指標(biāo)所反映的信息, 同時它們之間又是彼此獨(dú)

28、立的. 但是使用該方法可能導(dǎo)致一部分有用信息的丟失. 為此, Yeung et al67采用兩個真實(shí)數(shù)據(jù)集和三個模擬數(shù)據(jù)集作為實(shí)驗(yàn)材料, 對采用主成分分析方法所得出的聚類結(jié)果作了評估. 他們發(fā)現(xiàn), 進(jìn)行主成分處理后的聚類質(zhì)量沒有明顯提高, 甚至有所降低. 基于以上研究結(jié)果, 他們不主張使用PCA方法進(jìn)行聚類分析. 4.2 基因網(wǎng)絡(luò)分析(gene network analysis 基因表達(dá)分析包括3個層次68, 首先是單基因水平, 即比較對照組與實(shí)驗(yàn)組的每個基因是否存在表達(dá)差異, 這主要指差異基因表達(dá)分析; 其次是多基因水平, 如按照基因的共同功能、相互作用、共同表達(dá)等進(jìn)行的聚類分析; 最后是系

29、統(tǒng)水平, 即以基因網(wǎng)絡(luò)形式解釋和理解生命現(xiàn)象. 在生物體系中, 基因從來不是單獨(dú)起作用的, 它們相互作用呈網(wǎng)絡(luò)狀, 因此從網(wǎng)絡(luò)的觀點(diǎn)分析基因表達(dá)譜數(shù)據(jù)必然會導(dǎo)致對生物系統(tǒng)的更高層次的理解, 目前研究者們已經(jīng)開始了這方面的研究. 正如前述的各種聚類方法, 假如幾個基因被聚類在同一組, 它們有可能是共同表達(dá)的基因或者是有同樣的信號通徑, 深入分析這些基因的增強(qiáng)子可能發(fā)現(xiàn)它們共同的調(diào)節(jié)元件, 從而揭示生物系統(tǒng)更高層次的網(wǎng)絡(luò)69. 另外應(yīng)用目前已知全序列的模式生物(如酵母、結(jié)核分枝桿菌, 人們已研制出加載有他們?nèi)虻男酒? 通過比較不同條件下(突變、基因撬出或設(shè)計(jì)時間系列表達(dá)譜的變化, 再使用貝葉斯

30、網(wǎng)絡(luò)法等進(jìn)行系統(tǒng)分析, 可揭示基因功能和調(diào)控網(wǎng)絡(luò)70. 此外還可從代謝等角度研究, 比如從新陳代謝分析基因表達(dá)的網(wǎng)絡(luò)關(guān)系等.總之, 基因芯片數(shù)據(jù)分析的方法眾多, 隨著研究的進(jìn)展不斷地有新的數(shù)學(xué)方法應(yīng)用于芯片的數(shù)據(jù)分析中步研究.5 參考文獻(xiàn)1 Reimers M. Statistical analysis of microarray data.Addict Biol 2005; 10: 23-352 Hackl H, Cabo FS, Sturn A, Wolkenhauer O, Traja-noski Z. Analysis of DNA microarray data. Curr TopM

31、ed Chem 2004; 4: 1357-13703 Leung YF, Cavalieri D. Fundamentals of cDNAmicroarray data analysis. Trends Genet 2003; 19:649-6594 Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rush-more T. Monitoring expression of genes involved indrug metabolism and toxicology using DNA micro-arrays. Physiol Genomics 2

32、001; 5: 161-1705 Mutch DM, Berger A, Mansourian R, Rytz A, Rob-erts MA. The limit fold change model: a practicalapproach for selecting differentially expressedgenes from microarray data. BMC Bioinformatics2002; 3: 176 Yang IV, Chen E, Hasseman JP, Liang W, Frank BC,Wang S, Sharov V, Saeed AI, White

33、J, Li J, Lee NH,Yeatman TJ, Quackenbush J. Within the fold: as-sessing differential expression measures and repro-ducibility in microarray assays. Genome Biol 2002; 3:research00627 Black MA, Doerge RW. Calculation of the minimumnumber of replicate spots required for detection ofsigni cant gene expre

34、ssion fold change in microar-ray experiments. Bioinformatics 2002; 18: 1609-1616 8 Cui X, Churchill GA. Statistical tests for differentialexpression in cDNA microarray experiments. Ge-nome Biol 2003; 4: 2109 Raraty MG, Murphy JA, Mcloughlin E, Smith D,Criddle D, Sutton R. Mechanisms of acinar cellin

35、jury in acute pancreatitis. Scand J Surg 2005; 94:89-9610 Baldi P, Long AD. A Bayesian framework for theanalysis of microarray expression data: regularizedt-test and statistical inferences of gene changes. Bio-informatics 2001; 17: 509-51911 Long AD, Mangalam HJ, Chan BY, Tolleri L, Hat-field GW, Ba

36、ldi P. Improved statistical inferencefrom DNA microarray data using analysis of vari-ance and a Bayesian statistical framework. Analysisof global gene expression in Escherichia coli K12. JBiol Chem 2001; 276: 19937-1994412 Pavlidis P. Using ANOVA for gene selection frommicroarray studies of the nerv

37、ous system. Methods2003; 31: 282-28913 Hat eld GW, Hung SP, Baldi P. Differential analy-sis of DNA microarray gene expression data. MolMicrobiol 2003; 47: 871-87714 Pan KH, Lih CJ, Cohen SN. Analysis of DNA mi-croarrays using algorithms that employ rule-basedexpert knowledge. Proc Natl Acad Sci USA

38、2002; 99:2118-212315 Aubert J, Bar-Hen A, Daudin J, Robin S. Correction:Determination of the differentially expressed genesin microarray experiments using local FDR. BMCBioinformatics 2005; 6: 4216 Pawitan Y, Murthy KR, Michiels S, Ploner A. Biasin the estimation of false discovery rate in microar-r

39、ay studies. Bioinformatics 2005; 21: 3865-387217 Pawitan Y, Michiels S, Koscielny S, Gusnanto A,Ploner A. False discovery rate, sensitivity and sam-ple size for microarray studies. Bioinformatics 2005;21: 3017-302418 Grant GR, Liu J, Stoeckert CJ Jr. A practical falsediscovery rate approach to ident

40、ifying patterns ofdifferential expression in microarray data. Bioinfor-matics 2005; 21: 2684-269019 Zhao Y, Pan W. Modi ed nonparametric approach-es to detecting differentially expressed genes inreplicated microarray experiments. Bioinformatics2003; 19: 1046-105420 Troyanskaya OG, Garber ME, Brown P

41、O, Botstein D,Altman RB. Nonparametric methods for identifyingdifferentially expressed genes in microarray data.Bioinformatics 2002; 18: 1454-146121 Efron B, Tibshirani R. Empirical bayes methods andfalse discovery rates for microarrays. Genet Epide-miol 2002; 23: 70-8622 Tusher VG, Tibshirani R, Ch

42、u G. Significance72 ISSN 1009-3079 CN 14-1260/R 世界華人消化雜志 2006年1月8日 第14卷 第1期吳斌, 等. 基因表達(dá)譜芯片的數(shù)據(jù)分析 analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci USA 2001; 98: 5116-5121 Pan W, Lin J, Le CT. A mixture model approach to detecting differentially expressed genes with

43、 microarray data. Funct Integr Genomics 2003; 3: 117-124 Strimmer K. Modeling gene expression measurement error: a quasi-likelihood approach. BMC Bioinformatics 2003; 4: 10 Segal MR, Dahlquist KD, Conklin BR. Regression approaches for microarray data analysis. J Comput Biol 2003; 10: 961-980 Li H, G

44、ui J. Partial Cox regression analysis for highdimensional microarray gene expression data. Bioinformatics 2004; 20: I208-I215 Huang X, Pan W. Linear regression and two-class classification with gene expression data. Bioinformatics 2003; 19: 2072-2078 Azuaje F. Clustering-based approaches to discover

45、ing and visualising microarray data patterns. Brief Bioinform 2003; 4: 31-42 Guess MJ, Wilson SB. Introduction to hierarchical clustering. J Clin Neurophysiol 2002; 19: 144-151 Levenstien MA, Yang Y, Ott J. Statistical significance for hierarchical clustering in genetic association and microarray ex

46、pression studies. BMC Bioinformatics 2003; 4: 62 Bertucci F, Salas S, Eysteries S, Nasser V, Finetti P, Ginestier C, Charafe-Jauffret E, Loriod B, Bachelart L, Montfort J, Victorero G, Viret F, Ollendorff V, Fert V, Giovaninni M, Delpero JR, Nguyen C, Viens P, Monges G, Birnbaum D, Houlgatte R. Gene

47、 expression proling of colon cancer by DNA microarrays and correlation with histoclinical parameters. Oncogene 2004; 23: 1377-1391 Sorlie T, Perou CM, Tibshirani R, Aas T, Geisler S, Johnsen H, Hastie T, Eisen MB, van de Rijn M, Jeffrey SS, Thorsen T, Quist H, Matese JC, Brown PO, Botstein D, Eystei

48、n Lonning P, Borresen-Dale AL. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci USA 2001; 98: 10869-10874 Sherlock G. Analysis of large-scale gene expression data. Brief Bioinform 2001; 2: 350-362 D'ambrosio C, Akin C, Wu Y

49、, Magnusson MK, Metcalfe DD. Gene expression analysis in mastocytosis reveals a highly consistent profile with candidate molecular markers. J Allergy Clin Immunol 2003; 112: 1162-1170 Steinley D. Local optima in K-means clustering: what you don't know may hurt you. Psychol Methods 2003; 8: 294-3

50、04 Toronen P, Kolehmainen M, Wong G, Castren E. Analysis of gene expression data using self-organizing maps. FEBS Lett 1999; 451: 142-146 Covell DG, Wallqvist A, Rabow AA, Thanki N. Molecular classification of cancer: unsupervised selforganizing map analysis of gene expression microarray data. Mol C

51、ancer Ther 2003; 2: 317-332 Getz G, Levine E, Domany E. Coupled two-way clustering analysis of gene microarray data. Proc Natl Acad Sci USA 2000; 97: 12079-12084 Hastie T, Tibshirani R, Eisen MB, Alizadeh A, Levy R, Staudt L, Chan WC, Botstein D, Brown P. 'Gene shaving' as a method for ident

52、ifying distinct sets of genes with similar expression patterns. Genome Biol 2000; 1: RESEARCH0003 Jiang H, Deng Y, Chen HS, Tao L, Sha Q, Chen J, Tsai CJ, Zhang S. Joint analysis of two microarray gene-expression data sets to select lung adenocarcinoma marker genes. BMC Bioinformatics 2004; 5: 81 ra

53、ts. Dig Dis Sci 1995; 40: 2162-2169 Lazzeroni L, Owen A. Plaid models for gene expression data. Statistica Sinica 2002; 12: 61-86 Plaid models, for microarrays and DNA expression Available from: URL: http:/www-stat. stanford. edu/owen/plaid Wang J, Delabie J, Aasheim H, Smeland E, Myklebost O. Clust

54、ering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study. BMC Bioinformatics 2002; 3: 36 Herrero J, Dopazo J. Combining hierarchical clustering and self-organizing maps for exploratory analysis of gene expression patterns. J Proteome Res 2002; 1: 4

55、67-470 Tsai CA, Lee TC, Ho IC, Yang UC, Chen CH, Chen JJ. Multi-class clustering and prediction in the analysis of microarray data. Math Biosci 2005; 193: 79-100 Brock A, Huang S, Ingber DE. Identification of a distinct class of cytoskeleton-associated mRNAs using microarray technology. BMC Cell Bio

56、l 2003; 4: 6 Billings SA, Lee KL. Nonlinear sher discriminant analysis using a minimum squared error cost function and the orthogonal least squares algorithm. Neural Netw 2002; 15: 263-270 Cho JH, Lee D, Park JH, Lee IB. Gene selection and classification from microarray data using kernel machine. FE

57、BS Lett 2004; 571: 93-98 Dangond F, Hwang D, Camelo S, Pasinelli P, Frosch MP, Stephanopoulos G,Stephanopoulos G, Brown RH Jr, Gullans SR. Molecular signature of late-stage human ALS revealed by expression proling of postmortem spinal cord gray matter. Physiol Genomics 2004;16: 229-239 Friedman N, L

58、inial M, Nachman I, Pe'er D. Using Bayesian networks to analyze expression data. J Comput Biol 2000; 7: 601-620 Imoto S, Higuchi T, Goto T, Tashiro K, Kuhara S, Miyano S. Combining microarrays and biological knowledge for estimating gene networks via bayesian networks. J Bioinform Comput Biol 2004; 2: 77-98 Kim SY, Imoto S, Miyano S. Inferring gene networks from time series microarray data using dyna

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論