后基因組時代的生物信息_第1頁
后基因組時代的生物信息_第2頁
后基因組時代的生物信息_第3頁
后基因組時代的生物信息_第4頁
后基因組時代的生物信息_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

后基因組時代的生物信息胡艷玲謝瑩HGP——人類基因組計劃這張解剖圖將包括4張小圖,包括了人類基因組計劃的全部主要內(nèi)容,它們分別是遺傳圖(連鎖圖)、物理圖、序列圖和轉(zhuǎn)錄圖。后基因組時代的生物信息學2003年HGP測序工作全部完成后,生命科學進入后基因組時代。

后基因組時代的工作重點是:在整體水平上對基因組的功能進行研究。由此誕生了功結(jié)構(gòu)基因組學能基因?qū)W,結(jié)構(gòu)是功能的基礎,又產(chǎn)生了。

在功能基因組學的基礎上又產(chǎn)生了蛋白組學和RNA組學。2023/1/144前基因組時代的“釣魚”和后基因組時代的“撈魚”第一節(jié)基因組表達及調(diào)控的研究基因組表達及調(diào)控在全細胞的水平,識別所有基因組表達產(chǎn)物:※mRNA:cDNA陣列※

蛋白質(zhì):二維電泳—質(zhì)譜研究生物大分子相互作用: 闡明基因組表達在發(fā)育過程中的時、空的整體調(diào)控網(wǎng)絡。蛋白質(zhì)組學: 高通量解析蛋白質(zhì)的高級結(jié)構(gòu),是連接基因組功能研究和新藥開發(fā)的橋梁?;蚪M學、生物信息學與新藥研制未來的藥物研究過程將是基于生物信息知識挖掘的過程數(shù)據(jù)處理和關(guān)聯(lián)分析發(fā)現(xiàn)藥物作用對象確定靶目標分子針對靶目標進行合理的藥物設計CDNA微陣列基因表達數(shù)據(jù)的網(wǎng)絡資源

※GEO(/geo)

ArrayExpress(http://www.ebi.ac.uk/arrayexpress/)

※SMD(/)除了以上3個綜合性的基因表達數(shù)據(jù)倉庫外,還有一些專門的基因表達數(shù)據(jù)庫,例如

※YMD(YaleMicroarrayDatabase,/microarray/)

※ArrayDB(/arraydb/)

※BodyMap(http://bodymap.ims.u-tokyo.ac.jp/)

※ExpressDB(/ExpressDB/)

※HuGEIndex(HumanGeneExpressionIndex,/welcome/index.html)差異表達基因的選擇篩選差異基因包括:

※表達數(shù)據(jù)的獲取和標準化

標記物的差異、熒光標記檢測效能的差異以及樣品RNA的原始濃度的差異。

基因表達矩陣的構(gòu)建

m×n的基因表達矩陣,用以記錄基因在不同的實驗條件下的表達譜。通常m為基因的數(shù)目,n為實驗的次數(shù)或芯片的數(shù)目。

差異表達基因的篩選:t-檢驗和方差分析基因表達數(shù)據(jù)的聚類分析聚類分析可將具有相似表達模式的基因聚在一起,分析同類基因的功能,并對未知基因的功能和生物學特性進行推測。

幾種常用的聚類方法

※分層聚類(hierarchicalclustering,HCL)

※K-均值聚類(K-meanclustering,KMC)

※SOM聚類(self-organizingmapclustering,SOM)分層聚類分裂或凝聚算法運行到某一階段,類別劃分結(jié)果達到聚類標準時即可停止分裂或凝聚;層次聚類優(yōu)缺點優(yōu)點:所得結(jié)果可方便地進行可視化觀察。缺點:選取某一水平(即某一類間距離)的類數(shù)作最終結(jié)果,此一步較為主觀,很難確定哪個水平可給出最好的結(jié)果。此方法的復雜度與所分析表達譜數(shù)目的平方呈正比,對于現(xiàn)在數(shù)據(jù)集的大小而言是一大問題。K-均值聚類優(yōu)點:思想簡單易行,時間復雜性接近線性,對大規(guī)模數(shù)據(jù)的挖掘具有高效性和可伸縮性。缺點:該算法要求預指定類數(shù),而實際應用中很難預測類數(shù),因此需要通過試誤,即使用多套不同的參數(shù)設定,比較其結(jié)果,并且從生物學角度對結(jié)果進行驗證。K-均值聚類SOM聚類SOM(自組織映射)的由來:

1991,Kohonen提出,模擬人腦中的神經(jīng)元層;人腦中不同的神經(jīng)元區(qū)域負責不同的功能;一旦有外部刺激,與刺激相關(guān)的神經(jīng)元會被激勵,并且其附近神經(jīng)元也會受到激勵;SOM聚類(一)輸入數(shù)據(jù)獲勝神經(jīng)元臨近神經(jīng)元12SOM聚類(二)輸入數(shù)據(jù)獲勝神經(jīng)元臨近神經(jīng)元不同的神經(jīng)元區(qū)域代表不同的輸入數(shù)據(jù)模式34SOM聚類的優(yōu)缺點優(yōu)點:可以實現(xiàn)實時學習,網(wǎng)絡具有自穩(wěn)定性,無須外界給出評價函數(shù),能夠識別向量空間中最有意義的特征,抗噪音能力強。缺點:與K-均值聚類相似,它也需要預先指定參數(shù)(結(jié)點群的拓撲構(gòu)形),因而遇到與之相似的困難基因網(wǎng)絡研究的前提假定和基本原理什么是基因調(diào)控網(wǎng)絡?細胞、DNA、蛋白質(zhì)、基因、基因網(wǎng)絡為什么要研究基因調(diào)控網(wǎng)絡?從分子水平認識細胞組織的功能。我完全不懂生物學;我為什么要講這個?了解基因調(diào)控網(wǎng)絡,對我們有什么啟發(fā)?基因和蛋白質(zhì)基因網(wǎng)絡研究的前提假定和基本原理基因表達的調(diào)控:〔不同層次〕基因網(wǎng)絡研究的前提假定和基本原理基因調(diào)控網(wǎng)絡是指一組調(diào)控因子如何調(diào)控一套基因表達的過程.機體的功能發(fā)展來緣于遺傳網(wǎng)絡間的互作?;蚓W(wǎng)絡研究的前提假定和基本原理基因調(diào)控網(wǎng)絡研究的目的※識別和推斷基因網(wǎng)絡的結(jié)構(gòu)、特性和調(diào)控關(guān)系※認識復雜的分子調(diào)控過程※理解支配基因表達和功能的基本規(guī)則※揭示基因表達過程中的信息傳輸規(guī)律※整體的框架下研究基因的功能基因調(diào)控網(wǎng)絡構(gòu)建的方法※布爾網(wǎng)絡模型:※線性組合模型:※加權(quán)矩陣模型:近年來發(fā)表的基于微陣列數(shù)據(jù)進行基因調(diào)控網(wǎng)絡構(gòu)建和分析的軟件包基因調(diào)控網(wǎng)絡整合分析※基因表達數(shù)據(jù)※DNA序列※轉(zhuǎn)錄因子與順式調(diào)控元件相互作用※蛋白—蛋白相互作用※蛋白在細胞中的定位等再結(jié)合生物學實驗驗證,可以完善基因調(diào)控網(wǎng)絡。經(jīng)過若干次的建?!M—實驗循環(huán)可以逼近真實的生物學基因調(diào)控網(wǎng)絡。第二節(jié)功能基因與蛋白質(zhì)信息的文本挖掘文本挖掘的提出※雷諾氏?。菏且环N治療方法和病因?qū)W都未知的血液系統(tǒng)疾病,表現(xiàn)為血液循環(huán)紊亂,血液黏度升高?!渌墨I中發(fā)現(xiàn)食用魚油可以降低血液黏度。※Swanson把這兩種知識聯(lián)系起來提出食用魚油應該對雷諾氏病病人有幫助的假設。

3年后有人通過臨床實驗證實了這一點從文獻中可以發(fā)現(xiàn)或者挖掘到以前未知的知識文本挖掘的方法基于文獻的生物信息分析最重要一點就是如何找出隱含的、具有語義關(guān)聯(lián)的生物概念進行下一步的推理,這也是最為復雜的步驟。主要有以下方法:

※基于統(tǒng)計的方法

※基于自然語言處理的方法

※基于關(guān)聯(lián)規(guī)則挖掘的方法

※于模式識別的方法基于統(tǒng)計方法的文本挖掘基于統(tǒng)計的方法是通過詞的共現(xiàn)對已知基因或者其他生物信息關(guān)系進行聚類分析,得到新的基因或生物功能相互作用關(guān)系,或通過查找彼此間經(jīng)常同時出現(xiàn)但不是隨機出現(xiàn)的實體,進而鑒別出關(guān)系。CHAUSSABEL等提出了一種用文獻輪廓挖掘微陣列表達數(shù)據(jù)技術(shù)PUBGENE(HTTP://WWW.PUBGENE.ORG/)基于自然語言處理的方法基于自然語言處理的系統(tǒng):通過分析語法結(jié)構(gòu)進行關(guān)系抽取,對句子從詞法、句法和語義上進行解析,把自然語言分解為可以從中提取出關(guān)系的結(jié)構(gòu)。例子:

MedstractEngCG基于關(guān)聯(lián)規(guī)則挖掘的方法關(guān)聯(lián)規(guī)則相對于其他在基因芯片數(shù)據(jù)分析中使用的數(shù)據(jù)挖掘技術(shù)(例如聚類分析、主成份分析、因子分析等)而言,能夠推測基因之間表達關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則一般形式是LHS—RHS。例子:

{geneA↑}→{geneB↑,geneC↓}基于模式識別的方法基于模式識別的方法是對與已知有關(guān)系的實體相鄰近的文本進行模式的抽象,再利用生成的模式對測試語料集文本進行模式匹配,最終得到基因或蛋白質(zhì)關(guān)系結(jié)果。

例子:

RLIMS—P第三節(jié)分子進化和系統(tǒng)發(fā)育分析分子進化和系統(tǒng)發(fā)育分析我們學醫(yī),又不研究物種,學進化有什么用?廣西地區(qū)動物HEV基因型及亞型分布過度繁殖有限的生活條件+導致生存斗爭+變異導致適者生存+有利性狀遺傳導致生物新類型出現(xiàn)達爾文把這種在生存斗爭中,適者生存、不適者被淘汰的過程,叫做自然選擇。過度繁殖生存斗爭遺傳變異適者生存

達爾文的“自然選擇”學說基因突變1、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換固定在生物個體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子系統(tǒng)學是研究進化機制的一個重要工具。生物進化的分子機制abcdabcd拓撲結(jié)構(gòu):有根樹:反映時間順序無根樹:反映距離

理論上,一個DNA序列在物種形成或基因復制時,分裂成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。一般考慮二歧的樹結(jié)構(gòu):二歧樹分支:內(nèi)部分支外部分支節(jié)點:內(nèi)部節(jié)點外部節(jié)點系統(tǒng)發(fā)育樹的種類——有根樹、無根樹構(gòu)建系統(tǒng)發(fā)育樹的數(shù)據(jù)1、特征數(shù)據(jù)(characterdata):提供了基因、個體、群體或物種的信息2、距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata):涉及的則是成對基因、個體、群體或物種的信息。

距離矩陣距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。反之?系統(tǒng)發(fā)育樹的構(gòu)建構(gòu)建系統(tǒng)發(fā)育樹的數(shù)據(jù)1、特征數(shù)據(jù)(characterdata):提供了基因、個體、群體或物種的信息2、距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata):涉及的則是成對基因、個體、群體或物種的信息。

距離矩陣距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。反之?系統(tǒng)發(fā)育樹的構(gòu)建paralogsorthologs分子進化與系統(tǒng)發(fā)育分析軟件第四節(jié)單核苷酸多態(tài)性與連鎖不平衡人類基因組多態(tài)性遺傳信息檢驗–風險估計研究–臨床醫(yī)學轉(zhuǎn)換分子遺傳流行病學Isthereafamilialaggregation?Isitgenetic?Whichgeneticmodel?Whichgenes?ContributioningeneralpopulationClinicalobservationCase-controlstudyTwinstudyAdoptionstudyMigrationstudySegregationstudyLinkagestudyAssociationstudyGene-geneGene-environment基因分型分析DNA序列的變異性人類DNA序列99.9%都是一樣的

→3000000核酸存在差異通常定義為多態(tài)性SNP其較低等位位點頻率>1%遺傳變異研究的目的挖掘遺傳性疾病的病因以及預防預測進行個性化醫(yī)療通過位點確定疾病基因一般術(shù)語連鎖不平衡(LD)在某一群體中,不同座位上某兩個等位基因出現(xiàn)在同一條單元型上的頻率與預期的隨機頻率之間存在明顯差異的現(xiàn)象。微衛(wèi)星標記2-4個核苷酸重復GAACGTACTCACACACACACACATTTGACTTCGATGATAGATAGATAGATAGATACGT重復數(shù)(→30)具有高度多態(tài)性均勻分布在整個基因組通過PCR就可以鑒別出來ACGTGTCGGTCTTAAA

MaternalchromosomeACGTGTCCGTCTTAAA

PaternalchromosomeACGTGTCGGTCTTAAA

Maternalchromosome

ACGTGTCGGTCTTAAA

PaternalchromosomeACGTGTCCGTCTTAAA

MaternalchromosomeACGTGTCCTACTTAAA

PaternalchromosomeIndividual1Individual2Individual3SNP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論