基因表達譜芯片的數(shù)據(jù)分析_第1頁
基因表達譜芯片的數(shù)據(jù)分析_第2頁
基因表達譜芯片的數(shù)據(jù)分析_第3頁
基因表達譜芯片的數(shù)據(jù)分析_第4頁
基因表達譜芯片的數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 世界華人消化雜志2006年1月8日; 14(1: 68-74ISSN 1009-3079 CN 14-1260/R文獻綜述 REVIEW基因表達譜芯片的數(shù)據(jù)分析吳 斌, 沈自尹吳斌, 沈自尹, 復旦大學華山醫(yī)院中西醫(yī)結合研究所上海市200040國家自然科學基金資助項目, No. 90409001通訊作者: 沈自尹, 200040, 上海市復旦大學華山醫(yī)院中西醫(yī)結合研究所. wuubin電話: 021-*-6311收稿日期: 2005-09-10 接受日期: 2005-12-02摘要基因芯片數(shù)據(jù)分析的目的就是從看似雜亂無序的數(shù)據(jù)中找出它固有的規(guī)律, 本文根據(jù)數(shù)據(jù)分析的目的, 從差異基因表達分析

2、、聚類分析、判別分析以及其它分析等角度對芯片數(shù)據(jù)分析進行綜述, 并對每一種方法的優(yōu)缺點進行評述, 為正確選用基因芯片數(shù)據(jù)分析方法提供參考.關鍵詞: 基因芯片; 數(shù)據(jù)分析; 差異基因表達; 聚類分析; 判別分析吳斌, 沈自尹. 基因表達譜芯片的數(shù)據(jù)分析. 世界華人消化雜志 2006;14(1:68-740 引言 表達譜的聚類, 最終整合雜交點的生物學信息 , 發(fā)現(xiàn)基因的表達譜與功能可能存在的聯(lián)系. 然而每次實驗都產生海量數(shù)據(jù), 如何解讀芯片上成千上萬個基因點的雜交信息, 將無機的信息數(shù)據(jù)與有機的生命活動聯(lián)系起來, 闡釋生命特征和規(guī)律以及基因的功能, 是生物信息學研究的重要課題1. 基因芯片的數(shù)據(jù)

3、分析方法從機器學習的角度可分為監(jiān)督分析和非監(jiān)督分析, 假如分類還沒有形成, 非監(jiān)督分析和聚類方法是恰當?shù)姆治龇椒? 假如分類已經存在, 則監(jiān)督分析和判別方法就比非監(jiān)督分析和聚類方法更有效率。根據(jù)研究目的的不同2,3, 我們對基因芯片數(shù)據(jù)分析方法分類如下: (1差異基因表達分析: 基因芯片可用于監(jiān)測基因在不同組織樣品中的表達差異, 例如在正常細胞和腫瘤細胞中; (2聚類分析: 分析基因或樣本之間的相互關系, 使用的統(tǒng)計方法主要是聚類分析; (3判別分析: 以某些在不同樣品中表達差異顯著的基因作為模版, 通過判別分析就可建立有效的疾病診斷方法.1 差異基因表達分析(difference expre

4、ssion, DE對于使用參照實驗設計進行的重復實驗, 可以對通過對基因芯片的ratio值從大到小排序, ratio 是cy3/cy5的比值, 又稱R/G值. 一般0.5-2.0范圍內的基因不存在顯著表達差異, 該范圍之外則認為基因的表達出現(xiàn)顯著改變. 由于實驗條件的不同, 此閾值范圍會根據(jù)可信區(qū)間應有所調整5,6. 處理后得到的信息再根據(jù)不同要求以各種形式輸出, 如柱形圖、餅形圖、點圖等. 該方法的優(yōu)點是需要的芯片少, 節(jié)約研究成本; 缺點是結論過于簡單, 很難發(fā)現(xiàn)更高層次功能的線索; 除了有非常顯著的倍數(shù)變化的基因外, 其它變化小的基因的可靠性就值得懷疑了; 這種方法對于預實驗或實驗初篩是

5、可行的7. 此外倍數(shù)取值是任意的, 而且可能是不恰當?shù)? 例如, 假如以2倍為標準篩選差異表達基因, 有可能沒有1條入選, 結果敏感性為0, 同樣也可能出現(xiàn)很多差異表達基因, 結果使人認為倍數(shù)篩選法是在盲目的推測8,9.1.2 t檢驗(t-test 差異基因表達分析的另一種方法是t檢驗10, 當t超過根據(jù)可信度選擇的標準時, 比較的兩樣本被認為存在著差異. 但是t檢驗常常受到樣本量的限制, 由于基因芯片成本昂貴, 重復實驗又很費時, 小樣本的基因芯片實驗是很常見的, 但是小樣本導致了不可信的變異估計. 為了克服這種缺點, 研究者提出了調節(jié)性t檢驗(regularized t-test, 它是根

6、據(jù)在基因表達水平和變異之間存在著相互關系, 相似的基因表達水平有著相似的變異這個經驗, 應用貝葉斯條®背景資料基因芯片技術的出現(xiàn)為生命科學的研究帶來了革命性的變化, 然而基因芯片技術產生的海量數(shù)據(jù)成為制約該技術應用的瓶頸. 了解基因芯片數(shù)據(jù)分析的研究進展對于正確應用該技術具有重要的意義.本文對基因芯片數(shù)據(jù)分析方法綜述全面、系統(tǒng), 最重要的是對每一種方法進行了評述.吳斌, 等. 基因表達譜芯片的數(shù)據(jù)分析 69 因表達水平, 可以對任何基因的變異程度估計進行彌補. 這種方法對于基因表達的標準差估11是推斷兩組或多組資料的總體均數(shù)是否相同, 檢分析需要參照實驗設計, 參照樣本常用多種細胞的

7、mRNA 混合而成, 由于所有的細胞同時表達的基因眾多, 結果低表達基因在樣本混合后就被稀釋而減少了參照樣本的代表性, 因此, 增加參照樣本的細胞不會提高參照樣本的代表性13. 方差分析能計算出哪些基因有統(tǒng)計差異, 但它沒有對那些組之間有統(tǒng)計差異進行區(qū)分, 比如用單因素方差分析對A 、B 、C 、D 4組進行分析, 對于某一個基因, 方差分析能夠分析出A 組與B 、C 、D 組之間有差異, 但是B 、C 、D 之間無統(tǒng)計學意義. 這就需要使用均值間的兩兩比較(post-hoc comparisons檢驗, 該檢驗是對經方差分析后的基因進行下一水平更細節(jié)的分析14. 即t -檢驗只能用于檢驗兩樣

8、本中均值是否存在顯著性差異, 而兩兩比較技術考慮了多于2樣本間均數(shù)的比較. 上述所有的參數(shù)分析方法必須平衡假陽rected P -value = P -value ×n(number of genes in test, 如果糾正P 值仍小于錯誤率(如0.05, 則該基因將屬于有表達差異的基因. (2Bonferroni Step-down(Holm法, 這種校正方法與邦弗朗尼很相似, 但沒有前者嚴格. 主要思想如下: 每個基因的P 值從低到高排序, Corrected P -value =P -value ×n(n-1/n-2, 如果糾正P 值仍小于錯誤率(如0.05, 則

9、該基因將屬于有表達差異的基因. (3Westafall &Young 參數(shù)法, 前面2種方法都是單獨對P 值進行糾正, 本方法通過同時對所有基因進行排序, 充分利用基因間的獨立性進行P 值糾正. 每個基因的P 值是按原始資料的排序進行計算; 將資料劃分為人工組和對照組而產生新的數(shù)據(jù). 采用新數(shù)據(jù)計算所有基因的P 值, 新P 值再與以前的P 值進行比較, 上述過程重復很多次, 最后計算出糾正P 值. 如果糾正P 值仍小于錯誤率(如0.05, 則該基因將屬于有表達差異的基因. (4Benjamini & Hochberg 假陽性率法, 該方法是4種方法中最不嚴謹?shù)姆椒? 因此可能產

10、生很多的假陽性和假陰性, 其方法如下: 首先對每一個基因的P 值由小到大排序, 最大的P 值保持不變, 其它基因按下列公式計算P 值, Corrected P -value = P value ×(n/n-1以此類推, 若P <0.05則為有差異基因. 上述前3種方法可概括為誤差率判斷族(family-wise error rate, FWER, 它的特點是允許很少的假陽性基因發(fā)生, covery rate, FDR是允許一定率的假陽性基因發(fā)生. 總之, 假陽性率(FDR在差異表達與控制假.1.4 非參數(shù)分析(nonparametric analysis 由于微陣列數(shù)據(jù)存在&q

11、uot;噪聲"干擾而且不滿足正態(tài)分布假設, 因此使用t -檢驗和回歸模型進行篩選的方法可能有風險. 非參數(shù)檢驗并不要求數(shù)據(jù)滿足特殊分布的假設, 所以使用非參數(shù)方法對變量進行篩選雖然粗放, 但還是可行的19. 目前用于基因表達譜數(shù)據(jù)分析的非參數(shù)方法除了傳統(tǒng)的非參數(shù)t -檢驗(nonparametric t -test、Wilcoxon 秩和檢驗(Wilcoxon rank sun test等外20, 一些新的非參數(shù)方法也應用于基因表達譜數(shù)據(jù)的分析中, 如經驗貝葉斯法(empirical Bayes meth-od21、芯片顯著性分析(significance analysis of m

12、icroarray, SAM22、混合模型法(the mixture model method, MMM23等. 參數(shù)法的缺點是分析數(shù)據(jù)有假設檢驗, 比如改變樣本中的變異可明顯影響分析結果, 對同樣數(shù)據(jù)的轉換(如對數(shù), 對其分析結果也有明顯的影響. 非參數(shù)方法對于這種情況的發(fā)生更有效, 但是它對表達數(shù)據(jù)分析的敏感性不如參數(shù)方法.1.5 回歸分析(regression analysis 目前使用的一些簡單的參數(shù)分析方法是通過數(shù)據(jù)轉換(如對數(shù)來達到正態(tài)分布為假設前提的, 或者是估計的經驗分布, 然而這二種方法對基因表達數(shù)據(jù)可能都是不合理的, 非參數(shù)方法忽視了數(shù)據(jù)的分布, 而參數(shù)方法又會誤判數(shù)據(jù)的分

13、布24,25. 基因表達譜的回歸分析是可以處理多個基因變量間線性依存關系的統(tǒng)計方法, 于是研究者們提出了使用回歸分析基因表達譜數(shù)據(jù), 如Li et al 26相關報道1 吳斌, 林喬, 王米渠, 王建. 試論影響基因芯片實驗設計的因素. 世界華人消化雜志 2005; 13: 1206-120970 ISSN 1009-3079 CN 14-1260/R 世界華人消化雜志 2006年1月8日 第14卷 第1期 使用互變量(Cox回歸方法分析基因表達譜數(shù)據(jù), 用于患者的生存率預判; Huang et al 27將線性回歸方法應用于腫瘤的分類研究中.2 聚類分析(clustering analysi

14、s聚類分析的目的在于辨別在某些特性上相似的事物, 并按這些特性將樣本劃分成若干類(群, 使同類事物具有高度同質性, 而不同類事物則有高度異質性. 聚類分析是通過建立各種不同的數(shù)學模型, 它把基于相似數(shù)據(jù)特征的變量或樣本組合在一起. 歸為一個簇的基因在功能上可能相似或關聯(lián), 從而找到未知基因的功能信息或已知基因的未知功能. 但是由于使用數(shù)據(jù)轉換、歸一化等因素, 導致對聚類分析結果的影響較大; 此外, 聚類不管所聚的類別是否有意義28. (hierarchical clustering, HCL 分層聚類是將n個樣品各作為一類, 計算n 個樣品兩兩之間的距離,構成距離矩陣, 合并距離最近的兩類為一

15、新類, 計算新類與當前各類的距離29. 再合并、計算, 直至只有一類為止. 分層聚類是第一個被應用于基因表達譜數(shù)據(jù)分析的聚類方法30, 由于結果的可視化和基因間關系的明確表現(xiàn), 廣泛地應用于基因表達譜的腫瘤亞型分類和幸存率研究中31,32.將每個樣品歸類, 各類的重心代替初始凝聚點, 根據(jù)歐氏距離將每個樣品不斷地歸類, 直至分類達到穩(wěn)定. K-均值算法是采用誤差平方和為準則函數(shù)的動態(tài)聚類方法, 其計算快速, 適合于大規(guī)模的數(shù)據(jù)計算33. 如D'ambrosio et al 34為了理解肥大細胞增生的分子機制和尋找其鑒定的分子標記, 選取肥大細胞增生癥患者和正常人的骨髓的單核細胞進行基因

16、芯片實驗, 應用K-均值聚類和分層聚類得到同一類的10個基因, 進一步分析鑒定出3個基因屬于該疾病的候選標記基因. 但是K-均值聚類也有不足之處, 它對初始凝聚點比較敏感, 如果初始凝聚點沒有選擇好就可能集合在標準功能值的局域極小值上. 而另一個問題在于它是完全無結構的方法, 聚類的結果是無組織的35.2.3 自組織映射圖網(wǎng)絡(self-organizing map cluster-ing, SOM 神經網(wǎng)絡中鄰近的各個神經元通過側向交互作用彼此相互競爭, 自適應地發(fā)展成檢測不同信號的特殊檢測器, 這就是自組織特征映射的含義. 點的自組織映射圖. 自組織映射圖允許對類進行調整, 屬于監(jiān)督類聚類

17、36. 自組織映射圖分類標準明確; 優(yōu)化的次序好于其它聚類法, 在基因表達譜的數(shù)據(jù)分析中得到廣泛的應用. 如Covell et al 37認為多種腫瘤可能具有共同的基因表達譜, 他們選取了14種腫瘤和正常對照組織進行基因表達譜研究, 結果自組織圖能完全將腫瘤和正常組織區(qū)分出來, 自組織圖對各種腫瘤的分辨率達到80%的準確性, 其中對白血病、中樞神經系統(tǒng)腫瘤、黑色素瘤、子宮癌、淋巴瘤有很好的判別作用, 對直腸癌、乳腺癌、肺癌的判別差.2.4 雙向聚類(two-way clustering, TWC 基因表達譜常采用單向聚類法(one-way clustering, 即要么以整個樣本中特性相似的基

18、因進聚類, 或者以基因表達相似的樣本進行聚類. 對樣本和w o-w a y clustering38, 目前基因表達譜的數(shù)據(jù)分析常用(plaid models. 基因剃須是通過基因的共同表達值或表達量來鑒定基因的亞類, 基因表達譜分析方法常用監(jiān)督進行聚類, 沒有考慮一個基因可能屬于多個類. 基因剃須對基因或樣本進行分類既可以是監(jiān)督的, 也可以是非監(jiān)督的. 基因剃須近年逐漸被應用于基因表達譜的分析中, 如Hastie et al 39使用基因剃須方法分析了B 細胞淋巴瘤患者的基因表達譜, 鑒定了一小類可用于生存率預判的基因. 作者認為基因剃須方法是一種潛在有用的基因表達譜數(shù)據(jù)分析方法. Jian

19、g et al 40使用了2種基因剃須方法篩選肺腺癌的標志基因, 通過和正常組織的基因表達譜比較, 分別篩選到13條和10條, 其中5條是共同的. 格子模型的目的是分析基因芯片數(shù)據(jù)可解釋的生物結構, 即基因或樣本的亞類. 各類之間可以進一步聚類, 從而獲得穩(wěn)定的、有意義的分層結構41,42. 目前應用格子模型進行基因表達數(shù)據(jù)分析的實例還不多.2.5 混合聚類法 所謂混合聚類就是先非監(jiān)督(un-supervised聚類再監(jiān)督(supervised聚類. 其優(yōu)點是可以整合多種聚類方法的優(yōu)點, 目前混合聚類受到越來越多研究者的關注, 如由于基因芯片數(shù)據(jù)的復雜性和多維性, 為利于基因表達譜數(shù)據(jù)的處理,

20、 有必要對復雜多維的原始數(shù)據(jù)進行簡化處理, 為了解決這個問題, Wang et al 43提nd AB = (x i - y i 2 1/2 i = 1同行評價本文對基因表達芯片的數(shù)據(jù)分析方法進行了綜述, 并對差異基因表達分析、聚類分析以及判別分析等分法的優(yōu)缺點進行了評述, 文章選取的文獻較新穎,內容較全面、表達較準確,描述清晰、層次分明,可讀性較好, 反映了基因表達芯片數(shù)據(jù)分析方法的研究進展水平, 對于如何 選用數(shù)據(jù)分析方法具有較好的參考價值.吳斌, 等. 基因表達譜芯片的數(shù)據(jù)分析 71 出了雙水平分析, 即首先使用自組織圖減少原始數(shù)據(jù)的多維性, 然后進行了K-均值和分層聚類以建立樣本判別的

21、基因表達模型. H e r r e r oet al 44還論述如何將自組織圖和分層聚類組合成一個優(yōu)秀的工具用于基因表達譜的數(shù)據(jù)分析.3 判別分析(discriminant analysis判別分析能夠依據(jù)樣本的某些特性, 以判別樣本所屬類型. 與聚類分析不同的是, 判別分析是用某種方法將研究對象分成若干類的前提下, 建立判別函數(shù), 用以判定未知對象屬于已知分類中的哪一類. 基因判別分析(有監(jiān)督學習是在已有數(shù)據(jù)的基礎上建立分類器, 并利用所建立的分類器對未知樣品的功能或狀態(tài)進行預測45,46. 目前使用的判別分析方法主要有: 支持向量機、決策樹、貝葉斯分類、神經網(wǎng)絡法等進行判別47, Cho

22、et al 48應用費希爾判別方法分析腫瘤患者的基因表達譜資料以判別腫瘤的分型. 如Dangond et al 49將費希爾判別方法應用于計算肌萎縮側索硬化病的基因表達譜研究中. 3.2 貝葉氏網(wǎng)絡(bayesian networks 也被稱為因果網(wǎng)絡(causal networks, 是描述數(shù)據(jù)變量之間依賴關系的一種圖形模式, 是一種用來進行推理的模型. 貝葉斯網(wǎng)絡為人們提供了一種方便的框架結構來表示因果關系, 這使得不確定性推理在邏輯上更為清晰、更好理解50. 如Imoto et al 51結合貝葉斯網(wǎng)絡和生物學知識進行基因表達譜數(shù)據(jù)的基因網(wǎng)絡分析, 并以釀酒酵母的基因表達譜數(shù)據(jù)為例進行了

23、論證. Kim et al 52將貝葉斯網(wǎng)絡法應用于時間系列的基因表達譜數(shù)據(jù)的基因網(wǎng)絡分析等.3.3 支持向量機(support vector machines, SVMs 支持向量機是數(shù)據(jù)挖掘中的一個新方法. 支持向量機能非常成功地處理回歸問題(時間序列分析和模式識別(分類問題、判別分析等諸多問題, 它通過訓練一種"分類器"來辨識與已知的共調控基因表達類型相似的新基因53-55. 例如Williams et al 56為了鑒定出腎母細胞瘤復發(fā)的基因表達譜模型, 研究了27例腎母細胞瘤患者的腫瘤組織, 其中13例2 a 內復發(fā), 對復發(fā)和未復發(fā)的腫瘤組織進行基因芯片實驗,

24、并應用支持向量機對基因表達譜數(shù)據(jù)進行分析, 結果發(fā)現(xiàn)了一小類可能用于腫瘤預診的基因.3.4 決策樹(decision trees 決策樹是一種常用于預測模型的算法, 它通過將大量數(shù)據(jù)有目的的分類, 從中找到一些有價值的, 潛在的信息. 它的主要優(yōu)點是描述簡單, 分類速度快, 特別適合大規(guī)模的數(shù)據(jù)處理57. Dettling et al 58比較了不同決策樹算法對基因表達譜分析的影響. Mid-dendorf et al 59應用決策樹方法研究了簡單生物的基因調節(jié)機制.3.5 人工神經網(wǎng)絡法(artificial neural network, ANN ANN 是一種應用類似于大腦神經突觸聯(lián)接的

25、結構進行信息處理的數(shù)學模型. 在這一模型中, 大量的節(jié)點(或稱"神經元", 或"單元"之間相互聯(lián)接構成網(wǎng)絡, 即"神經網(wǎng)絡", 以達到處理信息的目的. 其優(yōu)勢是運行分析時無需在心目中有任何特定模型, 而且, 神經網(wǎng)絡可以發(fā)現(xiàn)交互作用效果(如年齡和性別的組合效果60. O'Neill et al 61將神經網(wǎng)絡法應用于淋巴瘤基因表達譜數(shù)據(jù)的分析, 該方法對淋巴瘤預后和診斷都具有較好的判別作用. Sawa et al 62對酵母屬基因表達譜數(shù)據(jù)進行了歐氏距離、相關系數(shù)、相互信息和基于神經網(wǎng)絡的聚類分析, 發(fā)現(xiàn)基于神經網(wǎng)絡的聚類結果

26、較前3種方法更為合理.4 其他分析4.1 主成分分析(principal component analysis, PCA 在大規(guī)?;虮磉_數(shù)據(jù)的分析工作中, 由于組織樣本例數(shù)遠遠小于所觀察基因個數(shù), 如果直接采用前述聚類分析可能產生較大誤差, 故需要對聚類算法進行改進. 目前已經提出很多改進的聚類方法, 其中較為流行的方法是應用主成分分析方法對數(shù)據(jù)進行分析63,64. 主成分分析的目的是要對多變量數(shù)據(jù)矩陣進行最佳綜合簡化. 使用的方法是尋找這些變量的線性組合-稱之為主成分, 使這些主成分間不相關. 為了能用盡量少的主成分個數(shù)去反映原始變量間提供的變異信息, 要求各主成分的方差從大到小排列, 第

27、一主成分最能反映數(shù)據(jù)間的差異. 主成分分析通過合并原來的維數(shù)得到更少的維數(shù)來表示對象, 同時要求新的維數(shù)必須盡可能地反映原有維數(shù)所反映的信息, 它有較少的信息丟失. 主成分分析有助于簡化分析和多維數(shù)據(jù)的可視化65. 如Crescenzi et al 66應用主成分分析對60個腫瘤細胞株的基因表達譜數(shù)據(jù)進行分析, 結果發(fā)現(xiàn)腫瘤分型相關的基因有1 375個, 主成分分析得到細胞運動等5個獨立的成份. 主成分分析是把原來多個變量化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法. 從數(shù)學角度來看, 這是一種降維處理技術. 而且使這些較少的綜合指標既能盡量多地反映原來較多指標所反映的信息, 同時它們之間又是彼此獨

28、立的. 但是使用該方法可能導致一部分有用信息的丟失. 為此, Yeung et al67采用兩個真實數(shù)據(jù)集和三個模擬數(shù)據(jù)集作為實驗材料, 對采用主成分分析方法所得出的聚類結果作了評估. 他們發(fā)現(xiàn), 進行主成分處理后的聚類質量沒有明顯提高, 甚至有所降低. 基于以上研究結果, 他們不主張使用PCA方法進行聚類分析. 4.2 基因網(wǎng)絡分析(gene network analysis 基因表達分析包括3個層次68, 首先是單基因水平, 即比較對照組與實驗組的每個基因是否存在表達差異, 這主要指差異基因表達分析; 其次是多基因水平, 如按照基因的共同功能、相互作用、共同表達等進行的聚類分析; 最后是系

29、統(tǒng)水平, 即以基因網(wǎng)絡形式解釋和理解生命現(xiàn)象. 在生物體系中, 基因從來不是單獨起作用的, 它們相互作用呈網(wǎng)絡狀, 因此從網(wǎng)絡的觀點分析基因表達譜數(shù)據(jù)必然會導致對生物系統(tǒng)的更高層次的理解, 目前研究者們已經開始了這方面的研究. 正如前述的各種聚類方法, 假如幾個基因被聚類在同一組, 它們有可能是共同表達的基因或者是有同樣的信號通徑, 深入分析這些基因的增強子可能發(fā)現(xiàn)它們共同的調節(jié)元件, 從而揭示生物系統(tǒng)更高層次的網(wǎng)絡69. 另外應用目前已知全序列的模式生物(如酵母、結核分枝桿菌, 人們已研制出加載有他們全基因的芯片, 通過比較不同條件下(突變、基因撬出或設計時間系列表達譜的變化, 再使用貝葉斯

30、網(wǎng)絡法等進行系統(tǒng)分析, 可揭示基因功能和調控網(wǎng)絡70. 此外還可從代謝等角度研究, 比如從新陳代謝分析基因表達的網(wǎng)絡關系等.總之, 基因芯片數(shù)據(jù)分析的方法眾多, 隨著研究的進展不斷地有新的數(shù)學方法應用于芯片的數(shù)據(jù)分析中步研究.5 參考文獻1 Reimers M. Statistical analysis of microarray data.Addict Biol 2005; 10: 23-352 Hackl H, Cabo FS, Sturn A, Wolkenhauer O, Traja-noski Z. Analysis of DNA microarray data. Curr TopM

31、ed Chem 2004; 4: 1357-13703 Leung YF, Cavalieri D. Fundamentals of cDNAmicroarray data analysis. Trends Genet 2003; 19:649-6594 Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rush-more T. Monitoring expression of genes involved indrug metabolism and toxicology using DNA micro-arrays. Physiol Genomics 2

32、001; 5: 161-1705 Mutch DM, Berger A, Mansourian R, Rytz A, Rob-erts MA. The limit fold change model: a practicalapproach for selecting differentially expressedgenes from microarray data. BMC Bioinformatics2002; 3: 176 Yang IV, Chen E, Hasseman JP, Liang W, Frank BC,Wang S, Sharov V, Saeed AI, White

33、J, Li J, Lee NH,Yeatman TJ, Quackenbush J. Within the fold: as-sessing differential expression measures and repro-ducibility in microarray assays. Genome Biol 2002; 3:research00627 Black MA, Doerge RW. Calculation of the minimumnumber of replicate spots required for detection ofsigni cant gene expre

34、ssion fold change in microar-ray experiments. Bioinformatics 2002; 18: 1609-1616 8 Cui X, Churchill GA. Statistical tests for differentialexpression in cDNA microarray experiments. Ge-nome Biol 2003; 4: 2109 Raraty MG, Murphy JA, Mcloughlin E, Smith D,Criddle D, Sutton R. Mechanisms of acinar cellin

35、jury in acute pancreatitis. Scand J Surg 2005; 94:89-9610 Baldi P, Long AD. A Bayesian framework for theanalysis of microarray expression data: regularizedt-test and statistical inferences of gene changes. Bio-informatics 2001; 17: 509-51911 Long AD, Mangalam HJ, Chan BY, Tolleri L, Hat-field GW, Ba

36、ldi P. Improved statistical inferencefrom DNA microarray data using analysis of vari-ance and a Bayesian statistical framework. Analysisof global gene expression in Escherichia coli K12. JBiol Chem 2001; 276: 19937-1994412 Pavlidis P. Using ANOVA for gene selection frommicroarray studies of the nerv

37、ous system. Methods2003; 31: 282-28913 Hat eld GW, Hung SP, Baldi P. Differential analy-sis of DNA microarray gene expression data. MolMicrobiol 2003; 47: 871-87714 Pan KH, Lih CJ, Cohen SN. Analysis of DNA mi-croarrays using algorithms that employ rule-basedexpert knowledge. Proc Natl Acad Sci USA

38、2002; 99:2118-212315 Aubert J, Bar-Hen A, Daudin J, Robin S. Correction:Determination of the differentially expressed genesin microarray experiments using local FDR. BMCBioinformatics 2005; 6: 4216 Pawitan Y, Murthy KR, Michiels S, Ploner A. Biasin the estimation of false discovery rate in microar-r

39、ay studies. Bioinformatics 2005; 21: 3865-387217 Pawitan Y, Michiels S, Koscielny S, Gusnanto A,Ploner A. False discovery rate, sensitivity and sam-ple size for microarray studies. Bioinformatics 2005;21: 3017-302418 Grant GR, Liu J, Stoeckert CJ Jr. A practical falsediscovery rate approach to ident

40、ifying patterns ofdifferential expression in microarray data. Bioinfor-matics 2005; 21: 2684-269019 Zhao Y, Pan W. Modi ed nonparametric approach-es to detecting differentially expressed genes inreplicated microarray experiments. Bioinformatics2003; 19: 1046-105420 Troyanskaya OG, Garber ME, Brown P

41、O, Botstein D,Altman RB. Nonparametric methods for identifyingdifferentially expressed genes in microarray data.Bioinformatics 2002; 18: 1454-146121 Efron B, Tibshirani R. Empirical bayes methods andfalse discovery rates for microarrays. Genet Epide-miol 2002; 23: 70-8622 Tusher VG, Tibshirani R, Ch

42、u G. Significance72 ISSN 1009-3079 CN 14-1260/R 世界華人消化雜志 2006年1月8日 第14卷 第1期吳斌, 等. 基因表達譜芯片的數(shù)據(jù)分析 analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci USA 2001; 98: 5116-5121 Pan W, Lin J, Le CT. A mixture model approach to detecting differentially expressed genes with

43、 microarray data. Funct Integr Genomics 2003; 3: 117-124 Strimmer K. Modeling gene expression measurement error: a quasi-likelihood approach. BMC Bioinformatics 2003; 4: 10 Segal MR, Dahlquist KD, Conklin BR. Regression approaches for microarray data analysis. J Comput Biol 2003; 10: 961-980 Li H, G

44、ui J. Partial Cox regression analysis for highdimensional microarray gene expression data. Bioinformatics 2004; 20: I208-I215 Huang X, Pan W. Linear regression and two-class classification with gene expression data. Bioinformatics 2003; 19: 2072-2078 Azuaje F. Clustering-based approaches to discover

45、ing and visualising microarray data patterns. Brief Bioinform 2003; 4: 31-42 Guess MJ, Wilson SB. Introduction to hierarchical clustering. J Clin Neurophysiol 2002; 19: 144-151 Levenstien MA, Yang Y, Ott J. Statistical significance for hierarchical clustering in genetic association and microarray ex

46、pression studies. BMC Bioinformatics 2003; 4: 62 Bertucci F, Salas S, Eysteries S, Nasser V, Finetti P, Ginestier C, Charafe-Jauffret E, Loriod B, Bachelart L, Montfort J, Victorero G, Viret F, Ollendorff V, Fert V, Giovaninni M, Delpero JR, Nguyen C, Viens P, Monges G, Birnbaum D, Houlgatte R. Gene

47、 expression proling of colon cancer by DNA microarrays and correlation with histoclinical parameters. Oncogene 2004; 23: 1377-1391 Sorlie T, Perou CM, Tibshirani R, Aas T, Geisler S, Johnsen H, Hastie T, Eisen MB, van de Rijn M, Jeffrey SS, Thorsen T, Quist H, Matese JC, Brown PO, Botstein D, Eystei

48、n Lonning P, Borresen-Dale AL. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci USA 2001; 98: 10869-10874 Sherlock G. Analysis of large-scale gene expression data. Brief Bioinform 2001; 2: 350-362 D'ambrosio C, Akin C, Wu Y

49、, Magnusson MK, Metcalfe DD. Gene expression analysis in mastocytosis reveals a highly consistent profile with candidate molecular markers. J Allergy Clin Immunol 2003; 112: 1162-1170 Steinley D. Local optima in K-means clustering: what you don't know may hurt you. Psychol Methods 2003; 8: 294-3

50、04 Toronen P, Kolehmainen M, Wong G, Castren E. Analysis of gene expression data using self-organizing maps. FEBS Lett 1999; 451: 142-146 Covell DG, Wallqvist A, Rabow AA, Thanki N. Molecular classification of cancer: unsupervised selforganizing map analysis of gene expression microarray data. Mol C

51、ancer Ther 2003; 2: 317-332 Getz G, Levine E, Domany E. Coupled two-way clustering analysis of gene microarray data. Proc Natl Acad Sci USA 2000; 97: 12079-12084 Hastie T, Tibshirani R, Eisen MB, Alizadeh A, Levy R, Staudt L, Chan WC, Botstein D, Brown P. 'Gene shaving' as a method for ident

52、ifying distinct sets of genes with similar expression patterns. Genome Biol 2000; 1: RESEARCH0003 Jiang H, Deng Y, Chen HS, Tao L, Sha Q, Chen J, Tsai CJ, Zhang S. Joint analysis of two microarray gene-expression data sets to select lung adenocarcinoma marker genes. BMC Bioinformatics 2004; 5: 81 ra

53、ts. Dig Dis Sci 1995; 40: 2162-2169 Lazzeroni L, Owen A. Plaid models for gene expression data. Statistica Sinica 2002; 12: 61-86 Plaid models, for microarrays and DNA expression Available from: URL: http:/www-stat. stanford. edu/owen/plaid Wang J, Delabie J, Aasheim H, Smeland E, Myklebost O. Clust

54、ering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study. BMC Bioinformatics 2002; 3: 36 Herrero J, Dopazo J. Combining hierarchical clustering and self-organizing maps for exploratory analysis of gene expression patterns. J Proteome Res 2002; 1: 4

55、67-470 Tsai CA, Lee TC, Ho IC, Yang UC, Chen CH, Chen JJ. Multi-class clustering and prediction in the analysis of microarray data. Math Biosci 2005; 193: 79-100 Brock A, Huang S, Ingber DE. Identification of a distinct class of cytoskeleton-associated mRNAs using microarray technology. BMC Cell Bio

56、l 2003; 4: 6 Billings SA, Lee KL. Nonlinear sher discriminant analysis using a minimum squared error cost function and the orthogonal least squares algorithm. Neural Netw 2002; 15: 263-270 Cho JH, Lee D, Park JH, Lee IB. Gene selection and classification from microarray data using kernel machine. FE

57、BS Lett 2004; 571: 93-98 Dangond F, Hwang D, Camelo S, Pasinelli P, Frosch MP, Stephanopoulos G,Stephanopoulos G, Brown RH Jr, Gullans SR. Molecular signature of late-stage human ALS revealed by expression proling of postmortem spinal cord gray matter. Physiol Genomics 2004;16: 229-239 Friedman N, L

58、inial M, Nachman I, Pe'er D. Using Bayesian networks to analyze expression data. J Comput Biol 2000; 7: 601-620 Imoto S, Higuchi T, Goto T, Tashiro K, Kuhara S, Miyano S. Combining microarrays and biological knowledge for estimating gene networks via bayesian networks. J Bioinform Comput Biol 2004; 2: 77-98 Kim SY, Imoto S, Miyano S. Inferring gene networks from time series microarray data using dyna

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論