第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第1頁(yè)
第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第2頁(yè)
第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第3頁(yè)
第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第4頁(yè)
第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九章第九章 數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析數(shù)據(jù)挖掘與基因表達(dá)調(diào)控信息分析主講人:孫主講人:孫 嘯嘯制作人制作人 :劉志華:劉志華東南大學(xué)東南大學(xué) 吳健雄實(shí)驗(yàn)室吳健雄實(shí)驗(yàn)室第一節(jié)第一節(jié) 引言引言基因表達(dá)調(diào)控是分子生物學(xué)目前研究基因表達(dá)調(diào)控是分子生物學(xué)目前研究的一個(gè)重點(diǎn),基因轉(zhuǎn)錄水平上的調(diào)控的一個(gè)重點(diǎn),基因轉(zhuǎn)錄水平上的調(diào)控是最重要的環(huán)節(jié)。是最重要的環(huán)節(jié)。與基因表達(dá)調(diào)控有關(guān)的信息包括基因與基因表達(dá)調(diào)控有關(guān)的信息包括基因組組DNA序列、轉(zhuǎn)錄因子、調(diào)控元件、序列、轉(zhuǎn)錄因子、調(diào)控元件、基因表達(dá)數(shù)據(jù)等?;虮磉_(dá)數(shù)據(jù)等。 數(shù)據(jù)庫(kù)技術(shù)及數(shù)據(jù)挖掘技術(shù)在基因表達(dá)調(diào)數(shù)據(jù)庫(kù)技術(shù)及數(shù)據(jù)挖掘技術(shù)在基因表達(dá)調(diào)控信息研究中的

2、應(yīng)用??匦畔⒀芯恐械膽?yīng)用。 第二節(jié)第二節(jié) 生物數(shù)據(jù)挖掘和可視化生物數(shù)據(jù)挖掘和可視化1、數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),數(shù)據(jù)挖掘,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是一個(gè)從大量關(guān)聯(lián)數(shù)據(jù)及數(shù)據(jù)庫(kù)中提是一個(gè)從大量關(guān)聯(lián)數(shù)據(jù)及數(shù)據(jù)庫(kù)中提取隱含信息的過(guò)程,目的是發(fā)現(xiàn)未知取隱含信息的過(guò)程,目的是發(fā)現(xiàn)未知的和規(guī)律性的知識(shí)的和規(guī)律性的知識(shí) 。數(shù)據(jù)挖掘本質(zhì)上是對(duì)數(shù)據(jù)庫(kù)中蘊(yùn)涵的、數(shù)據(jù)挖掘本質(zhì)上是對(duì)數(shù)據(jù)庫(kù)中蘊(yùn)涵的、未知的、有潛在應(yīng)用價(jià)值的、非平凡未知的、有潛在應(yīng)用價(jià)值的、非平凡知識(shí)的提取。知識(shí)的提取。數(shù)據(jù)挖掘常用的方法有:數(shù)據(jù)挖掘常用的方法有:統(tǒng)計(jì)分析統(tǒng)計(jì)分析規(guī)則歸納規(guī)則歸納決策樹(shù)決策樹(shù)聚類分析聚類分析神經(jīng)網(wǎng)絡(luò)神

3、經(jīng)網(wǎng)絡(luò)自組織映射自組織映射遺傳算法遺傳算法 數(shù)據(jù)庫(kù)集成:數(shù)據(jù)庫(kù)集成:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)所有的數(shù)據(jù)在物理上集中在一起所有的數(shù)據(jù)在物理上集中在一起 虛擬數(shù)據(jù)庫(kù)技術(shù)虛擬數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)表面上或者在邏輯上是集成在一起,然數(shù)據(jù)表面上或者在邏輯上是集成在一起,然而它們的物理存貯則是分散在而它們的物理存貯則是分散在Internet不同的不同的數(shù)據(jù)服務(wù)器上數(shù)據(jù)服務(wù)器上 從兩種數(shù)據(jù)庫(kù)集成技術(shù)來(lái)看:從兩種數(shù)據(jù)庫(kù)集成技術(shù)來(lái)看:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)實(shí)用于數(shù)據(jù)庫(kù)變動(dòng)不太頻繁、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)實(shí)用于數(shù)據(jù)庫(kù)變動(dòng)不太頻繁、數(shù)據(jù)庫(kù)中數(shù)據(jù)類型和使用方法比較接近的數(shù)據(jù)庫(kù)中數(shù)據(jù)類型和使用方法比較接近的情況。情況。虛擬數(shù)據(jù)庫(kù)技術(shù)實(shí)用于數(shù)據(jù)更新

4、速度快、虛擬數(shù)據(jù)庫(kù)技術(shù)實(shí)用于數(shù)據(jù)更新速度快、數(shù)據(jù)類型和使用方法完全不一樣的情況。數(shù)據(jù)類型和使用方法完全不一樣的情況。 利用計(jì)算機(jī)進(jìn)行自動(dòng)分析和數(shù)據(jù)挖掘,利用計(jì)算機(jī)進(jìn)行自動(dòng)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)功能和特征發(fā)現(xiàn)功能和特征 ,主要體現(xiàn)在四個(gè),主要體現(xiàn)在四個(gè)方面:方面: (1)序列和結(jié)構(gòu)特征)序列和結(jié)構(gòu)特征 (2)同源家族)同源家族 (3)基因表達(dá)模式)基因表達(dá)模式 (4)與疾病相關(guān)的數(shù)據(jù)特征)與疾病相關(guān)的數(shù)據(jù)特征 2、生物信息可視化通過(guò)數(shù)據(jù)的可視化,幫助人們認(rèn)識(shí)和通過(guò)數(shù)據(jù)的可視化,幫助人們認(rèn)識(shí)和理解數(shù)據(jù),進(jìn)而分析和解釋數(shù)據(jù),使理解數(shù)據(jù),進(jìn)而分析和解釋數(shù)據(jù),使人們從表面上看來(lái)是雜亂無(wú)章的海量人們從表面上

5、看來(lái)是雜亂無(wú)章的海量數(shù)據(jù)中找出隱藏的規(guī)律,為科學(xué)發(fā)現(xiàn)數(shù)據(jù)中找出隱藏的規(guī)律,為科學(xué)發(fā)現(xiàn)提供依據(jù)。提供依據(jù)??梢暬绦驈娜祟愓J(rèn)知特性出發(fā),以可視化程序從人類認(rèn)知特性出發(fā),以表格、色彩、多維圖形、動(dòng)畫(huà)表格、色彩、多維圖形、動(dòng)畫(huà)等形式等形式表示生物分子數(shù)據(jù)。表示生物分子數(shù)據(jù)。生物數(shù)據(jù)可視化包括應(yīng)用軟件的圖形生物數(shù)據(jù)可視化包括應(yīng)用軟件的圖形用戶界面、可視化程序用戶界面、可視化程序。通過(guò)圖形界面,用戶可以很方便地使通過(guò)圖形界面,用戶可以很方便地使用應(yīng)用軟件,觀察生物分子數(shù)據(jù),甚用應(yīng)用軟件,觀察生物分子數(shù)據(jù),甚至通過(guò)圖形方式處理生物分子數(shù)據(jù)。至通過(guò)圖形方式處理生物分子數(shù)據(jù)??梢暬夹g(shù)早已應(yīng)用在生物信息學(xué)中,

6、可視化技術(shù)早已應(yīng)用在生物信息學(xué)中,如如: 用分子圖形學(xué)技術(shù)顯示分子的結(jié)構(gòu)用分子圖形學(xué)技術(shù)顯示分子的結(jié)構(gòu)顯示序列比較的點(diǎn)圖顯示序列比較的點(diǎn)圖生物分子數(shù)據(jù)的最大特點(diǎn)是存在著復(fù)生物分子數(shù)據(jù)的最大特點(diǎn)是存在著復(fù)雜的相互關(guān)系雜的相互關(guān)系如如DNA到到 RNA的映射關(guān)系、基因調(diào)控信的映射關(guān)系、基因調(diào)控信息與基因表達(dá)數(shù)據(jù)之間的關(guān)系、基因之間息與基因表達(dá)數(shù)據(jù)之間的關(guān)系、基因之間的相互作用關(guān)系等的相互作用關(guān)系等這一特點(diǎn)決定了生物信息可視化技術(shù)這一特點(diǎn)決定了生物信息可視化技術(shù)不僅要顯示信息本身,而且要不僅要顯示信息本身,而且要顯示信顯示信息之間的關(guān)聯(lián)息之間的關(guān)聯(lián)。幾種生物信息可視化技術(shù)幾種生物信息可視化技術(shù) (1

7、)層次樹(shù)與聚焦、關(guān)聯(lián)數(shù)據(jù)顯示魚(yú))層次樹(shù)與聚焦、關(guān)聯(lián)數(shù)據(jù)顯示魚(yú)眼鏡技術(shù)眼鏡技術(shù)魚(yú)眼鏡是一種廣角鏡,它詳細(xì)顯示中心區(qū)魚(yú)眼鏡是一種廣角鏡,它詳細(xì)顯示中心區(qū)域內(nèi)容,漸粗地扭曲顯示遠(yuǎn)景。域內(nèi)容,漸粗地扭曲顯示遠(yuǎn)景。 (2)信息壁技術(shù)信息壁是適合視窗中顯示完整信息空信息壁是適合視窗中顯示完整信息空間的二維簡(jiǎn)化表示法。它利用間的二維簡(jiǎn)化表示法。它利用灰度、灰度、陰影、亮度、色彩、象素尺寸陰影、亮度、色彩、象素尺寸等視覺(jué)等視覺(jué)特征及圖像壓縮技術(shù)產(chǎn)生信息空間的特征及圖像壓縮技術(shù)產(chǎn)生信息空間的縮影。作為導(dǎo)航背景的壁能夠提供信縮影。作為導(dǎo)航背景的壁能夠提供信息背景,以息背景,以支持平鋪和縮放等更細(xì)節(jié)支持平鋪和縮放等

8、更細(xì)節(jié)的聚焦觀察的聚焦觀察。信息壁的全景觀察加上。信息壁的全景觀察加上平鋪和縮放,就可作為一種獨(dú)立的可平鋪和縮放,就可作為一種獨(dú)立的可視化工具。視化工具。(3)魔鏡)魔鏡 這是一種新的用戶界面工具,看似一這是一種新的用戶界面工具,看似一塊透明玻璃,用戶可用來(lái)定制數(shù)據(jù)視塊透明玻璃,用戶可用來(lái)定制數(shù)據(jù)視窗和底層應(yīng)用。窗和底層應(yīng)用。好比在一平面坐標(biāo)數(shù)好比在一平面坐標(biāo)數(shù)據(jù)集上放置一成像工具鏡,就會(huì)得到據(jù)集上放置一成像工具鏡,就會(huì)得到框架內(nèi)數(shù)據(jù)的曲線圖??蚣軆?nèi)數(shù)據(jù)的曲線圖。多重鏡頭重疊多重鏡頭重疊可從更多層次上觀察數(shù)據(jù)??蓮母鄬哟紊嫌^察數(shù)據(jù)。魔鏡是一種魔鏡是一種語(yǔ)義鏡語(yǔ)義鏡所謂語(yǔ)義鏡是一種能對(duì)群體目標(biāo)

9、進(jìn)行所謂語(yǔ)義鏡是一種能對(duì)群體目標(biāo)進(jìn)行全局瀏覽并且保持個(gè)體間特定關(guān)系的全局瀏覽并且保持個(gè)體間特定關(guān)系的可視化方法,可視化方法,它通常通過(guò)放大局部細(xì)它通常通過(guò)放大局部細(xì)節(jié)、縮小周邊內(nèi)容的方法來(lái)滿足觀察節(jié)、縮小周邊內(nèi)容的方法來(lái)滿足觀察需要。需要。魔鏡技術(shù)推進(jìn)了自定義界面的應(yīng)用。魔鏡技術(shù)推進(jìn)了自定義界面的應(yīng)用。3、基因調(diào)控?cái)?shù)據(jù)可視化技術(shù) 目前,基因數(shù)據(jù)可視化技術(shù)主要有:(1)語(yǔ)義鏡技術(shù) (2)信息壁技術(shù) (3)基因調(diào)控網(wǎng)絡(luò)基因調(diào)控網(wǎng)絡(luò)表示則是表現(xiàn)生物分子相互作用、復(fù)合及作用路徑等生物信息的新可視化技術(shù) 第三節(jié)第三節(jié) 基因轉(zhuǎn)錄調(diào)控元件識(shí)別基因轉(zhuǎn)錄調(diào)控元件識(shí)別在轉(zhuǎn)錄和后轉(zhuǎn)錄水平,基因的表達(dá)在在轉(zhuǎn)錄和后轉(zhuǎn)錄

10、水平,基因的表達(dá)在很大程度上受到一些順式作用元件很大程度上受到一些順式作用元件(即即轉(zhuǎn)錄調(diào)控元件轉(zhuǎn)錄調(diào)控元件)的控制的控制它們本質(zhì)上是一些比較短的序列,它們本質(zhì)上是一些比較短的序列,這些序列一般都處在受調(diào)控基因的上游區(qū)這些序列一般都處在受調(diào)控基因的上游區(qū)域域 調(diào)控序列的分析主要涉及調(diào)控序列的分析主要涉及三類問(wèn)題三類問(wèn)題:(1)在給定基因的上游區(qū)域?qū)ふ乙阎模┰诮o定基因的上游區(qū)域?qū)ふ乙阎恼{(diào)控元件調(diào)控元件(2)在一系列共表達(dá)或者共調(diào)控基因的)在一系列共表達(dá)或者共調(diào)控基因的上游區(qū)域中發(fā)現(xiàn)未知的調(diào)控元件上游區(qū)域中發(fā)現(xiàn)未知的調(diào)控元件(3)尋找由一個(gè)已知轉(zhuǎn)錄因子調(diào)控的未)尋找由一個(gè)已知轉(zhuǎn)錄因子調(diào)控的未知

11、基因。知基因。 可以通過(guò)實(shí)驗(yàn)的方法來(lái)標(biāo)識(shí)調(diào)控元件??梢酝ㄟ^(guò)實(shí)驗(yàn)的方法來(lái)標(biāo)識(shí)調(diào)控元件。主要的方法是通過(guò)對(duì)目標(biāo)基因或者假主要的方法是通過(guò)對(duì)目標(biāo)基因或者假想的調(diào)控區(qū)域進(jìn)行突變分析識(shí)別調(diào)控想的調(diào)控區(qū)域進(jìn)行突變分析識(shí)別調(diào)控元件。元件。另一種方法是另一種方法是通過(guò)分析轉(zhuǎn)錄因子結(jié)合通過(guò)分析轉(zhuǎn)錄因子結(jié)合的序列來(lái)識(shí)別調(diào)控元件的序列來(lái)識(shí)別調(diào)控元件。 幾種典型的算法 1、計(jì)數(shù)法2、WORDUP算法3、信息含量方法4、MM(Mixture Model)算法序列2:ATCGTGA序列1:CGTGAAC考慮n=5,相應(yīng)的矩陣為序列2:ATCGTGAATCGTTCGTGCGTGA54321543215432154321tttttcccccgggggaaaaaTCGA00100000010101010000序列1:CGTGAACCGTGAGTGAATGAAC005 .

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論