版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三講
表觀遺傳學(xué)數(shù)據(jù)分析PartI表觀遺傳學(xué)概念PartIIDNA甲基化數(shù)據(jù)分析PartIII腫瘤甲基化數(shù)據(jù)庫(kù)網(wǎng)絡(luò)工具介紹PartIV案例:基于數(shù)據(jù)挖掘的全基因組DNA甲基化數(shù)據(jù)分析PartV拷貝數(shù)變異數(shù)據(jù)分析的軟件實(shí)現(xiàn)-Genovar
PartI表觀遺傳學(xué)概念表觀遺傳學(xué)是研究不涉及DNA序列改變的情況下,DNA甲基化譜、染色質(zhì)結(jié)構(gòu)狀態(tài)和基因表達(dá)譜在細(xì)胞代間傳遞的遺傳現(xiàn)象的一門科學(xué)。計(jì)算表觀遺傳學(xué)是應(yīng)用及開發(fā)生物信息學(xué)方法(統(tǒng)計(jì)分析,模式識(shí)別等)解決生物醫(yī)學(xué)相關(guān)的表觀遺傳學(xué)問題。生物信息學(xué)構(gòu)架了基因組學(xué)與表觀基因組學(xué)的橋梁計(jì)算表觀遺傳學(xué)表觀遺傳學(xué)數(shù)據(jù)分類腫瘤神經(jīng)退行性疾病心血管疾病精神性疾病代謝性疾病表觀遺傳學(xué)在醫(yī)學(xué)中的應(yīng)用DNA甲基化和組蛋白修飾有潛在的臨床用途用于普遍臨床實(shí)踐抑癌基因高甲基化譜可用于癌癥病人預(yù)后特定基因的高甲基化可對(duì)治療反應(yīng)進(jìn)行預(yù)測(cè)診斷工具患者預(yù)后治療反應(yīng)預(yù)測(cè)PartII基因組的DNA甲基化數(shù)據(jù)分析一、CpG島的DNA甲基化調(diào)控基因表達(dá)(一)DNA甲基化與CpG島DNA甲基化是一種發(fā)生在DNA序列上的化學(xué)修飾,可以在轉(zhuǎn)錄及細(xì)胞分裂前后被穩(wěn)定地遺傳。DNA甲基化是重要的表觀遺傳代碼。CpG是胞嘧啶(C)—磷酸(p)—鳥嘌呤(G)的縮寫。CpG島主要位于基因的啟動(dòng)子和外顯子區(qū)域,富含CpG,長(zhǎng)度為300—3000bp。CpG島甲基化和轉(zhuǎn)錄的關(guān)系DNA甲基化的發(fā)生機(jī)制在DNA甲基化轉(zhuǎn)移酶(DNMTs)的作用下使CpG二核苷酸5’-端的胞嘧啶轉(zhuǎn)變?yōu)?’-甲基胞嘧啶。DNA甲基化通常抑制基因表達(dá),去甲基化則誘導(dǎo)了基因的重新活化和表達(dá)。DNA甲基化轉(zhuǎn)移酶(二)DNA甲基化對(duì)轉(zhuǎn)錄的調(diào)控1.DNA甲基化阻礙轉(zhuǎn)錄因子的結(jié)合2.DNA甲基化識(shí)別染色質(zhì)標(biāo)記3.DNA甲基化募集其他蛋白引起染色質(zhì)沉默4.DNA甲基化影響核小體定位二、基因組CpG島的預(yù)測(cè)算法1)實(shí)驗(yàn)方法確定的基因組范圍CpG島圖譜②基于相鄰CpG二核苷酸距離的CpG島預(yù)測(cè)算法計(jì)算基因組范圍內(nèi)相鄰CpG二核苷酸之間的距離,估計(jì)距離的理論分布并確定閾值,根據(jù)域值確定CpG簇,通過合并CpG簇,得到CpG島。2)CpG島的計(jì)算預(yù)測(cè)方法通過設(shè)定窗口寬度大小,判斷窗口內(nèi)的序列片段是否滿足CpG島的定義(如長(zhǎng)度、GC含量等)。①基于窗口滑動(dòng)法的CpG島預(yù)測(cè)算法結(jié)合DNA結(jié)構(gòu)、組蛋白修飾、DNA甲基化狀態(tài)以及轉(zhuǎn)錄因子結(jié)合等信息定位CpG島等方法,可提高預(yù)測(cè)的準(zhǔn)確性。UCSC數(shù)據(jù)庫(kù)的截圖展示了三個(gè)CpG島三、DNA甲基化的檢測(cè)方法目前常用的DNA甲基化檢測(cè)方法是將待檢序列中甲基化的胞嘧啶轉(zhuǎn)化為其他堿基組成的變化。1.限制性內(nèi)切酶法2.重亞硫酸鈉法3.高通量測(cè)序的DNA甲基化檢測(cè)方法(Microarray)不同癌癥之間基因的超甲基化水平存在差異TCGA下載的DNA甲基化微陣列的數(shù)據(jù)格式甲基化矩陣數(shù)據(jù)注釋數(shù)據(jù)甲基化矩陣中的DNA甲基化水平用beta值來表示,beta表示的是甲基化等位基因密度與非甲基化等位基因密度的比值,該值為[0,1]之間的連續(xù)值,0表示未甲基化,1表示完全甲基化。DNA甲基化數(shù)據(jù)矩陣分析和基因表達(dá)矩陣分析類似差異甲基化區(qū)域篩選聚類火山圖亞型分析富集分析數(shù)據(jù)挖掘,特征分析……案例:應(yīng)用R的CancerSubtypes軟件包實(shí)現(xiàn)DNA甲基化數(shù)據(jù)分析(一)準(zhǔn)備2個(gè)數(shù)據(jù)文件60個(gè)Tumor樣本,8個(gè)normal樣本dnamethy.csvdnamethynohead.csvread.table("d:\\dnamethy.csv",header=TRUE,sep=",")->aread.table("d:\\dnamethynohead.csv",header=FALSE,sep=",")->datadata<-as.matrix(data)rownames(data)<-a[,1]colnames(data)<-c(rep("Tumor",60),c(rep("Normal",8)))(二)將整理好的excel數(shù)據(jù)導(dǎo)入library(CancerSubtypes)(三)檢查數(shù)據(jù)的分布data.checkDistribution(data)(四)缺失值填補(bǔ)data=data.imputation(data,fun="median")(五)數(shù)據(jù)正態(tài)化data=data.normalization(data,type="feature_Median",log2=FALSE)類型:feature_Median中位正態(tài)化feature_Mean均值正態(tài)化feature_zscore按基因標(biāo)化sample_zscore按樣本標(biāo)化log2如果是TRUE,做以2為底的對(duì)數(shù)轉(zhuǎn)換(常用于RNAseq數(shù)據(jù))(六)繪制雙向聚類圖library(gplots)heatmap.2(data,col=redgreen)(七)求差異表達(dá)基因T_data<-data[,1:60]N_data<-data[,61:68]result=DiffExp.limma(Tumor_Data=T_data,Normal_Data=N_data,topk=NULL,RNAseq=FALSE)RNAseq=TRUE表示用RNAseq表達(dá),RNAseq=FALSE表示microarrray數(shù)據(jù)。write.csv(result,file="d:\\result.csv")差異甲基化區(qū)域:CpG的編號(hào)對(duì)應(yīng)原數(shù)據(jù)的順序編號(hào)。(八)用輸出結(jié)果繪制火山圖
數(shù)據(jù)格式如下:library(ggplot2)read.table("d:\\volcano.csv",header=TRUE,sep=",")->datathreshold<-as.factor(abs(data$logFC)>=1.5&data$Pvalue<0.05)ggplot(data,aes(x=logFC,y=-log10(Pvalue),colour=threshold))+geom_point(alpha=0.4,size=1.75)+geom_vline(xintercept=c(-1,1),lty=4,col="grey",lwd=0.5)+geom_hline(yintercept=-log10(0.05),lty=4,col="grey",lwd=0.5)紅色字體表示設(shè)置散點(diǎn)和分界線的顏色和樣式。火山圖對(duì)提取的差異表達(dá)基因,也可以應(yīng)用主成分分析繪制分類圖轉(zhuǎn)置存為cpgpca.csv,存于d盤下。library(ggfortify)read.table("d:\\cpgpca.csv",header=TRUE,sep=",")->aautoplot(stats::prcomp(a[-1]),data=a,frame=TRUE,frame.type='t',frame.colour='group',colour='group')腫瘤樣本正常樣本說明差異的DNA甲基化區(qū)域(基因)能夠?qū)颖痉蛛x開(九)腫瘤亞型和正常的比較1)應(yīng)用甲基化數(shù)據(jù)將腫瘤分為三個(gè)亞型。result1=ExecuteCC(clusterNum=3,d=T_data,maxK=10,clusterAlg="hc",distance="pearson")group=result1$group2)每一個(gè)亞型和正常數(shù)據(jù)的差異甲基化diff=DiffExp.limma(Tumor_Data=T_data,Normal_Data=N_data,group=group,topk=NULL,RNAseq=FALSE)write.csv(diff,file="d:\\subtype.csv")每一種亞型和正常比較的DNA差異甲基化區(qū)域3)繪制熱圖distanceMatrix=result1$distanceMatrixsilhouette=silhouette_SimilarityMatrix(group,distanceMatrix)drawHeatmap(T_data,group,silhouette=silhouette,scale="max_min",Title="DNAmethylation")sil=silhouette_SimilarityMatrix(result1$group,result1$distanceMatrix)plot(sil,col=c("red","green","blue"))4)繪制Silhouette圖5)亞型之間的比較sigclustTest(T_data,group,nsim=500,nrep=1,icovest=1)PartIII腫瘤甲基化數(shù)據(jù)庫(kù)腫瘤相關(guān)的DNA甲基化數(shù)據(jù)庫(kù)-MethHC網(wǎng)絡(luò)工具簡(jiǎn)介MethHC網(wǎng)絡(luò)工具(http://MethHC..tw)整合了TCGA(TheCancerGenomeAtlas)數(shù)據(jù)庫(kù)中的DNA甲基化數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)以及DNA甲基化和基因表達(dá)的相關(guān)性。數(shù)據(jù)庫(kù)中包含了18種人類癌癥6000個(gè)樣本和6548個(gè)微陣列及12,567個(gè)RNA測(cè)序數(shù)據(jù)。甲基化水平所涉及的基因區(qū)域包含promoter、enhancer、TSS1500、TSS200、5'UTR、firstexon、genebody和3'UTR、CpGislands、shelves和shores1)瀏覽高甲(低)甲基化基因MethHC網(wǎng)絡(luò)工具可以幫助獲得腫瘤相關(guān)基因的DNA甲基化水平。例如選擇膀胱癌(BladderUrothelialCarcinoma,BLCA),選擇基因區(qū)域?yàn)镃pGisland,DNA甲基化水平選擇平均水平(Average),則獲得膀胱癌相關(guān)的250個(gè)高甲基化基因點(diǎn)擊“mostdifferentially250”可以獲得250個(gè)腫瘤樣本與正常樣本最顯著的差異甲基化基因。比如對(duì)于第一個(gè)基因DGKZ,點(diǎn)擊“detail”,圖中結(jié)果表示的是DNA甲基化水平與基因表達(dá)值的相關(guān)性。我們也可以打開相應(yīng)的數(shù)據(jù)進(jìn)行查看,點(diǎn)擊“Downloaddata”進(jìn)行下載:2)基于基因搜索的DNA甲基化水平分析在主頁菜單中點(diǎn)擊“GeneSearch”,并勾選膀胱癌(blca:BladderUrothelialCarcinoma)。在彈出的界面中,基因區(qū)域選擇“Promoter”,甲基化水平評(píng)價(jià)方法選擇“Average”,在基因列表的空白框內(nèi)輸入兩個(gè)基因KRT4和KRT6C,用分號(hào)分隔開:點(diǎn)擊“Search”按鈕后,輸出了KRT4和KRT6C在膀胱癌和正常樣本中的DNA甲基化水平的箱式圖。如果還想獲得KRT6C在正常樣本和膀胱癌樣本中的DNA甲基化水平(beta-value)的分布,點(diǎn)擊“Downloadsummary”,可以獲得兩組樣本DNA甲基化水平的描述信息,如p值、腫瘤樣本數(shù)、正常樣本數(shù)、最小值、中位數(shù)、第一和第三四分位數(shù)以及最大值等,如圖所示。3)DNA甲基化水平的統(tǒng)計(jì)學(xué)描述
PartIV案例:突眼癥的DNA全基因組甲基化數(shù)據(jù)分析案例:突眼癥的DNA甲基化數(shù)據(jù)處理1)識(shí)別差異甲基化區(qū)域2)單變量的Logistic回歸分析批量作Logistic回歸read.table("d:\\logit.csv",header=TRUE,sep=",")->aresult<-array(0,dim=c(39,4))for(iin1:39){logr<-glm(group~sex+age+duration+a[,i+4],data=a,family="binomial")result[i,1]<-exp(summary(logr)$coefficients[5,1])result[i,2]<-exp(summary(logr)$coefficients[5,1]-1.96*summary(logr)$coefficients[5,2])result[i,3]<-exp(summary(logr)$coefficients[5,1]+1.96*summary(logr)$coefficients[5,2])result[i,4]<-summary(logr)$coefficients[5,4]}result(設(shè)置4列:分別放入OR值,OR值置信區(qū)間的上下限,P值)一次Logistic回歸的結(jié)果運(yùn)行結(jié)果如下:4列分別為第1列:OR值第2列:OR值置信區(qū)間的下限第3列:OR值置信區(qū)間的上限第4列:P值3)聚類分析CancerSubtypes軟件包4)主成分分析5)GO功能富集分析6)與表型的線性相關(guān)分析
PartV拷貝數(shù)變異數(shù)據(jù)分析的軟件實(shí)現(xiàn)DNA拷貝數(shù)變異(CopyNumberVariants,CNV)是由基因組發(fā)生重排而導(dǎo)致的,一般指長(zhǎng)度1kb以上的基因組大片段的拷貝數(shù)增加或者減少,主要表現(xiàn)為亞顯微水平的缺失和重復(fù):缺失1或0拷貝CNVloss正常2拷貝重復(fù)>2拷貝CNVgain
當(dāng)前,對(duì)于全基因組范圍內(nèi)的CNV檢測(cè)主要有三種技術(shù):基于芯片的的比較基因組雜交技術(shù)(array-basedComparativeGenomicHybridization,aCGH)、SNP分型芯片技術(shù)和新一代測(cè)序技術(shù)。aCGH技術(shù)具有高敏感度和準(zhǔn)確度的特點(diǎn),探針密度越高所得結(jié)果越準(zhǔn)確。相對(duì)于aCGH技術(shù)而言,SNP芯片僅使用單雜交就可以完成。
當(dāng)前的新一代測(cè)序技術(shù)就具有很多優(yōu)點(diǎn)了,如該技術(shù)不需要知道更多的背景知識(shí)和設(shè)計(jì)工作,應(yīng)用配對(duì)測(cè)序就可以鑒定出復(fù)雜的結(jié)構(gòu)變化,而且費(fèi)用低廉。DNA拷貝數(shù)變異數(shù)據(jù)的分析軟件-Genovar
Genovar是一款基于Java開發(fā)的軟件,可從/上下載。該軟件不僅可探查CNV區(qū)域,還可以將探查到的CNV區(qū)域和基因組變異數(shù)據(jù)庫(kù)DGV(http://projects.tcag.ca/variation)以及dbSNP數(shù)據(jù)庫(kù)作比較。同時(shí)也可以對(duì)aCGH或序列格式的基因組數(shù)據(jù)進(jìn)行可視化。該軟件采用的是Smith-WatermanArray(SW-ARRAY)算法,算法提供了探查CNV的動(dòng)態(tài)程序。由于該算法依賴于參數(shù)的域值,因此結(jié)果對(duì)域值的變化會(huì)更加敏感。下面來看具體的操作步驟。Genovar界面如圖:該軟件可以打開四種格式的數(shù)據(jù)文件,分別為:aCGH格式的文件、基因位置文件、BAM格式的文件和UCSCfasta格式的文件。下面打開一個(gè)aCGH格式的數(shù)據(jù),該數(shù)據(jù)中包括正常組織樣本7例,腫瘤組織樣本28例。主要信息包括探針名稱、染色體信息、起始及終止位置信息及樣本的ratio值。在軟件中將文件打開后,就出現(xiàn)圖所示的界面了,該界面將第一個(gè)樣本的全基因組aCGH數(shù)據(jù)進(jìn)行可視化,其中綠色表示探針的ratio為正值,紅色表示探針的ratio為負(fù)值。從Sample對(duì)應(yīng)的下拉菜單中選擇任意一個(gè)樣本,就可以按照該樣本的的數(shù)值進(jìn)行基因組繪圖了,如圖所示。如果想看某一個(gè)腫瘤樣本T2_1在6號(hào)染色體的分布情況,在Sample下拉菜單中選擇“T2_1”,在CHR下拉菜單中選擇“Chr6”,就可以獲得如圖所示的結(jié)果,其中左側(cè)是數(shù)據(jù)表,右側(cè)為繪制出的腫瘤樣本T2_1的探針在6號(hào)染色體上的分布情況。下面對(duì)于T2_1樣本,進(jìn)行CNV區(qū)域的探查,如果想探查其他樣本,只需在Sample下拉菜單中選擇相應(yīng)的樣本就可以了,如圖所示。此時(shí)彈出的對(duì)話框如圖所示。軟件中提供了兩種方法:域值法ThresholdBasedMethod和Smith-Waterman
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【七年級(jí)下冊(cè)地理中圖版】5.1 自然環(huán)境對(duì)民居、服飾和飲食的影響 同步練習(xí)
- 家長(zhǎng)指南如何制定有效的日常教育計(jì)劃
- 打造健康家庭的秘訣定期運(yùn)動(dòng)計(jì)劃的制定與執(zhí)行
- 教育背景下城市酒店的多元化民族元素應(yīng)用探索
- 2025來料加工和來件裝配合同范本重慶冉繽律師文集
- 媒體行業(yè)的數(shù)字化轉(zhuǎn)型之路
- 2025非訴委托合同書
- 2025民間借款貸款合同范本
- 2025關(guān)于解除勞動(dòng)合同協(xié)議書范例
- 小學(xué)勞動(dòng)教育中跨文化交流的實(shí)踐與思考
- iatf16949應(yīng)急計(jì)劃評(píng)審報(bào)告
- DB14T 1850-2019 園林綠化種植土質(zhì)量標(biāo)準(zhǔn)
- 商業(yè)銀行高管問責(zé)制度
- 企業(yè)員工培訓(xùn)之風(fēng)險(xiǎn)管理與防范對(duì)策
- 水源熱泵操作規(guī)程
- 食材配送后續(xù)服務(wù)方案
- 鑄造工廠設(shè)備管理(共21頁)
- 農(nóng)產(chǎn)品收購(gòu)臺(tái)賬(登記經(jīng)營(yíng)單位及個(gè)體經(jīng)營(yíng)者投售的農(nóng)產(chǎn)品
- 分紅保險(xiǎn)精算規(guī)定
- Proud-of-you中英文歌詞
- 基因的表達(dá)與調(diào)控.ppt
評(píng)論
0/150
提交評(píng)論