數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第1頁(yè)
數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第2頁(yè)
數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第3頁(yè)
數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第4頁(yè)
數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析第1頁(yè)/共37頁(yè)第九章數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析(2)第2頁(yè)/共37頁(yè)第四節(jié)基因表達(dá)數(shù)據(jù)的聚類(lèi)分析基因表達(dá)數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一是基因芯片,這是最主要的表達(dá)數(shù)據(jù)來(lái)源,利用基因芯片技術(shù)可以大規(guī)模并行獲取基因轉(zhuǎn)錄結(jié)果mRNA的數(shù)據(jù)。表達(dá)系列分析SAGE和差異顯示、蛋白質(zhì)芯片等是快速檢測(cè)蛋白質(zhì)及其含量的另一類(lèi)技術(shù)。第3頁(yè)/共37頁(yè)聚類(lèi)分析是模式識(shí)別中一種非常有吸引力的方法,特別適用于模式分類(lèi)數(shù)不知道的情況。從機(jī)器學(xué)習(xí)的角度來(lái)看,有兩種基本的聚類(lèi)分析:有教師聚類(lèi)無(wú)教師聚類(lèi)第4頁(yè)/共37頁(yè)基因表達(dá)數(shù)據(jù)聚類(lèi)分析一般包括以下幾個(gè)步驟:(1)確定基因表達(dá)的數(shù)據(jù)(2)計(jì)算相似性矩陣,各個(gè)矩陣元素代表兩個(gè)基因的表達(dá)是否相似(3)選擇算法進(jìn)行聚類(lèi)分析(4)顯示分析結(jié)果。第5頁(yè)/共37頁(yè)對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析之前,必須將包含在基因表達(dá)矩陣中的數(shù)據(jù)進(jìn)行相似程度分析,并且對(duì)分析結(jié)果進(jìn)行量化。通常情況下,相似往往被賦于一個(gè)較大的量化的值,而不相似則由一個(gè)較小的量化的值來(lái)表示。在實(shí)際計(jì)算中,往往以距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個(gè)基因表達(dá)模式之間的距離。距離越小,表達(dá)模式越相近,反之,則表達(dá)模式差異大。第6頁(yè)/共37頁(yè)第7頁(yè)/共37頁(yè)幾種常用的聚類(lèi)方法1.簡(jiǎn)單聚類(lèi)2.層次式聚類(lèi)3.K平均聚類(lèi)4.自組織映射神經(jīng)網(wǎng)絡(luò)5.模糊聚類(lèi)分析方法6、聚類(lèi)分析結(jié)果的樹(shù)圖表示第8頁(yè)/共37頁(yè)1、簡(jiǎn)單聚類(lèi)假設(shè)有n個(gè)基因表達(dá)數(shù)據(jù)向量分別為X1,X2,…,XN

令任意一個(gè)基因的表達(dá)向量為第一個(gè)聚類(lèi)的中心依次處理其它基因在處理第i個(gè)基因時(shí),首先計(jì)算該基因的表達(dá)數(shù)據(jù)向量與現(xiàn)有各類(lèi)中心的距離假設(shè)與第j類(lèi)的距離Dij最小,并且Dij<T,則將基因i分配到第j類(lèi);否則生成一個(gè)新類(lèi),該類(lèi)的中心為第i個(gè)基因的表達(dá)向量。第9頁(yè)/共37頁(yè)2、層次式聚類(lèi)

第10頁(yè)/共37頁(yè)3、K平均聚類(lèi)

任意選取K個(gè)基因表達(dá)向量作為初始聚類(lèi)中心

Z1,Z2,…,Zk

反復(fù)迭代計(jì)算如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,ij),則將X所代表的基因歸于第j類(lèi)。按照上述辦法處理所有的基因;經(jīng)過(guò)上述處理,聚類(lèi)可能發(fā)生變化,因此需要重新計(jì)算K個(gè)新聚類(lèi)中心:

對(duì)于所有的聚類(lèi)中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結(jié)束,得到最后的聚類(lèi)結(jié)果;否則繼續(xù)進(jìn)行迭代計(jì)算。

第11頁(yè)/共37頁(yè)4、自組織映射神經(jīng)網(wǎng)絡(luò)

第12頁(yè)/共37頁(yè)圖9.12SOM聚類(lèi)結(jié)果示意第13頁(yè)/共37頁(yè)5、模糊聚類(lèi)分析方法主要過(guò)程:(1)建立模糊相似矩陣(2)生成模糊等價(jià)矩陣(3)構(gòu)建動(dòng)態(tài)聚類(lèi)圖第14頁(yè)/共37頁(yè)6、聚類(lèi)結(jié)果顯示圖9.15基因表達(dá)模式聚類(lèi)結(jié)果圖示第15頁(yè)/共37頁(yè)分類(lèi)分析方法

有監(jiān)督學(xué)習(xí)

疾病診斷、細(xì)胞類(lèi)型識(shí)別樣本分類(lèi):(例)急性淋巴細(xì)胞白血病(ALL)急性髓性白血病(AML)第16頁(yè)/共37頁(yè)例:兩類(lèi)劃分

第17頁(yè)/共37頁(yè)問(wèn)題:基因的選擇?分類(lèi)的方法?貝葉斯分類(lèi)法支持向量機(jī)(SVM)

k最近鄰法神經(jīng)網(wǎng)絡(luò)方法決策樹(shù)方法投票分類(lèi)法(多分類(lèi)器)

第18頁(yè)/共37頁(yè)7、主成分分析PCA

第19頁(yè)/共37頁(yè)圖9.13主元素對(duì)應(yīng)特征值圖示第20頁(yè)/共37頁(yè)第21頁(yè)/共37頁(yè)分析基因表達(dá)數(shù)據(jù)發(fā)現(xiàn)與疾病直接相關(guān)的基因發(fā)現(xiàn)這些基因的活動(dòng)規(guī)律第22頁(yè)/共37頁(yè)第五節(jié)基因調(diào)控網(wǎng)絡(luò)分析一個(gè)基因網(wǎng)絡(luò)由一組生物分子(如基因、蛋白質(zhì))以及它們之間的相互作用構(gòu)成,這些生物分子共同完成一些特定的細(xì)胞功能任務(wù)。在實(shí)際分析過(guò)程中,往往以圖這種數(shù)據(jù)結(jié)構(gòu)表示基因網(wǎng)絡(luò),圖中的節(jié)點(diǎn)代表基因或者蛋白質(zhì),而節(jié)點(diǎn)之間的連線(xiàn)代表基因、蛋白質(zhì)之間的相互作用?;蚓W(wǎng)絡(luò)描述了特定細(xì)胞或組織中的功能路徑,如代謝、基因調(diào)控,信號(hào)傳導(dǎo)等。第23頁(yè)/共37頁(yè)圖9.16基因表達(dá)在化學(xué)催化中的作用第24頁(yè)/共37頁(yè)圖9.17代謝路徑示例:脯氨酸的生物合成第25頁(yè)/共37頁(yè)基因表達(dá)實(shí)際上是細(xì)胞、組織、器官受遺傳和環(huán)境影響的結(jié)果。一個(gè)基因的轉(zhuǎn)錄和表達(dá)由細(xì)胞的生化狀態(tài)所決定,在一個(gè)基因的轉(zhuǎn)錄過(guò)程中,一組轉(zhuǎn)錄因子作用于該基因的啟動(dòng)子區(qū)域,控制該基因轉(zhuǎn)錄,而這些轉(zhuǎn)錄因子本身又是其它基因的產(chǎn)物。當(dāng)一個(gè)基因通過(guò)轉(zhuǎn)錄、翻譯形成功能基因產(chǎn)物后,它將改變細(xì)胞的生化狀態(tài),從而直接或間接地影響其它基因的表達(dá),甚至影響自身的表達(dá)。多個(gè)基因的表達(dá)不斷變化,使得細(xì)胞的生化狀態(tài)不斷地變化。第26頁(yè)/共37頁(yè)一個(gè)基因的表達(dá)受其它基因的影響,而這個(gè)基因又會(huì)影響其它基因的表達(dá),這種相互影響、相互制約關(guān)系構(gòu)成了復(fù)雜的基因表達(dá)調(diào)控網(wǎng)絡(luò)?;虮磉_(dá)數(shù)據(jù)之中隱含基因之間的相互作用關(guān)系,因而可以通過(guò)分析基因表達(dá)數(shù)據(jù),構(gòu)建基因調(diào)控網(wǎng)絡(luò)。第27頁(yè)/共37頁(yè)幾種基因調(diào)控網(wǎng)絡(luò)模型1、布爾網(wǎng)絡(luò)模型第28頁(yè)/共37頁(yè)ABC

ABC 系統(tǒng)運(yùn)行軌跡

循環(huán)ABC111021113011400150006000前一個(gè)狀態(tài)后一個(gè)狀態(tài)作用規(guī)則(1)A激活B(2)B激活A(yù)和C(3)C抑制A第29頁(yè)/共37頁(yè)第30頁(yè)/共37頁(yè)2、線(xiàn)性組合模型線(xiàn)性組合模型是一種連續(xù)網(wǎng)絡(luò)模型,在這種模型中,一個(gè)基因的表達(dá)值是若干個(gè)其它基因表達(dá)值的加權(quán)和。基本表示形式為:第31頁(yè)/共37頁(yè)3、加權(quán)矩陣模型加權(quán)矩陣模型與線(xiàn)性組合模型相似,在該模型中,一個(gè)基因的表達(dá)值是其它基因表達(dá)值的函數(shù)。第32頁(yè)/共37頁(yè)4、互信息關(guān)聯(lián)網(wǎng)絡(luò)可以用距離或相關(guān)系數(shù)作為基因表達(dá)模式之間的相似性度量,還可以用另外一種度量形式,即用熵和互信息描述基因與基因的關(guān)聯(lián)。一個(gè)基因表達(dá)模式的熵是該模式所含信息量的度量。設(shè)X是一個(gè)基因表達(dá)模式,用下式計(jì)算熵:第33頁(yè)/共37頁(yè)5、基因調(diào)控網(wǎng)絡(luò)實(shí)例真核生物生理過(guò)程的調(diào)控網(wǎng)絡(luò)GeneNetGeneNet展示了協(xié)調(diào)方式下基因的整體功能,良好的調(diào)控功能和對(duì)外界刺激的反應(yīng)。該基因網(wǎng)具有以下基本功能:(a)描述執(zhí)行特定生物功能時(shí)所涉及到的整體基因交互作用(b)描述基因的蛋白質(zhì)編碼(c)描述基因?qū)ν饨绱碳さ膫鞲型緩?d)通過(guò)一組反饋?zhàn)詣?dòng)地穩(wěn)定網(wǎng)絡(luò)參數(shù)或者使網(wǎng)絡(luò)轉(zhuǎn)換到新的功能狀態(tài)(e)利用外部信號(hào)、激素和代謝產(chǎn)物作為生理學(xué)參數(shù)激發(fā)基因網(wǎng)糾正其作用第34頁(yè)/共37頁(yè)該基因網(wǎng)描述了四類(lèi)實(shí)體:

(a)細(xì)胞(組織,器官)(b)蛋白質(zhì)

(c)基因

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論