




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第七講差異表達(dá)分析第1頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月QuantileNormalization使每張芯片/通道的強(qiáng)度值有相同的分布(intensitydistribution)第2頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月QuantilenormalizationBeforeAfterQuantilenormalization第3頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第4頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第5頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第6頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月R語(yǔ)言和bioconductor第7頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第8頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月差異表達(dá)基因分析第9頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月單張cDNA芯片差異表達(dá)基因第10頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月差異表達(dá)基因分析基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異,在雙色熒光系統(tǒng)中,用Cy5/Cy3的比值來(lái)衡量基因的表達(dá)差異,也稱表達(dá)差異值。在Affymetrix等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比值。噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。第11頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月倍數(shù)法第12頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月倍數(shù)法倍數(shù)法是比較常用的一種方法,因?yàn)楸容^簡(jiǎn)單和直接。但是,這種方法也是有其重大缺陷的。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為2倍,則有可能找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽(yáng)性率。這一方法沒(méi)有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性。第13頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月Z值法在一張cDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有很小一部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。Z=(X-μ)/σ.|Z|>=1.96在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只是有很小一部分基因有表達(dá),可以假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作Z變換,使其具有統(tǒng)計(jì)意義。如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因,Z值法還是會(huì)挑選出5%的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽(yáng)性點(diǎn)。如果實(shí)際上實(shí)驗(yàn)中有大量的基因發(fā)生表達(dá)改變,Z值法還是機(jī)械的找出5%的差異表達(dá)基因,丟失了一部分真陽(yáng)性點(diǎn)。第14頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月一般性的方法選擇一個(gè)統(tǒng)計(jì)量給基因排秩來(lái)證明表達(dá)有差異為排秩統(tǒng)計(jì)量選擇一個(gè)判別值,在它之上的值將被認(rèn)為是顯著的前面一個(gè)部分更為重要,所以研究的較多,方法也更多,后面那部分的方法稍微簡(jiǎn)單第15頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月重復(fù)芯片(replicates)M值根據(jù)比率平均值或?qū)蚺判?。M值為信號(hào)強(qiáng)度比值的log2值,是任一特定基因在重復(fù)序列中M值的均值。這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上M值很大,但在其他芯片上M值很小,其實(shí)這條基因并沒(méi)有差異表達(dá),但由于個(gè)別M值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽(yáng)性。第16頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月T值排序假如一個(gè)基因在幾張重復(fù)芯片的M值都很小,但是這些M值非常接近,所以s值也非常小,這樣可能會(huì)導(dǎo)致t值很大,從而會(huì)把這個(gè)本沒(méi)有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。第17頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月修正的T值修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正t-統(tǒng)計(jì)量給基因排秩比用均數(shù)和一般的t-統(tǒng)計(jì)量效果要好。第18頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者score值,篩選差異表達(dá)基因第19頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月不同類樣本差異基因識(shí)別第20頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量平均值標(biāo)準(zhǔn)差232.7198.2137.784.3218.6181.5216.787第21頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月比較多組數(shù)的方法T檢驗(yàn):平均值F檢驗(yàn):方差第22頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第23頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第24頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月SAM(significanceanalysisofmicroarrays)
單通道Oligo芯片,尤其是affymetrix芯片數(shù)據(jù)分析用得較多第25頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第26頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月雙通道cDNA芯片數(shù)據(jù)分析用得較多第27頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月FalseDiscoveryRate(FDR)錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具。統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,具體說(shuō)來(lái)就是想用假設(shè)檢驗(yàn)后賦予每個(gè)基因統(tǒng)計(jì)顯著性或者P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上的意義。為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(FalseDiscoveryRate)的方法來(lái)判斷差異基因。第28頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月Multipletest(Pvalueadjustment)第29頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月火山圖(volcanoplot)Statisticaltest:PvalueFoldchange:Ratio第30頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月其他方法B-statistics(Smyth,2004)BayesT-test(BaldiandLong,2001)SAMROC(Broberg,2002)Zhao-Panmethod(ZhaoandPan,2003)……第31頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月ImprovedDetectionofDifferentiallyExpressedGenesTimeseriesmicroarraydataset第32頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月聚類分析第33頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月基因表達(dá)數(shù)據(jù)矩陣(AffymetrixGeneChip?oligonucleotidearrays)sam/ref第34頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月基因表達(dá)數(shù)據(jù)矩陣(glassslides)第35頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)矩陣具體形式第36頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)形式數(shù)據(jù)矩陣,基因數(shù)遠(yuǎn)大于樣品數(shù)對(duì)任意一個(gè)基因來(lái)說(shuō),樣本值是特征值,數(shù)據(jù)的維數(shù)是M對(duì)任意一個(gè)樣本來(lái)說(shuō),基因值是特征值,數(shù)據(jù)的維數(shù)是N聚類時(shí)考慮基因之間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的M維數(shù)據(jù)之間的相似性第37頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月Cluster&Treeview軟件第38頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月Cluster&Treeview軟件第39頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月Genesis軟件第40頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月預(yù)分析(Pre-Analysis)重復(fù)值合并(replicatehandling)數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(datatransformationandstandardization)缺失數(shù)據(jù)處理(missingvaluemanagement)基因篩選(patternselection)第41頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月重復(fù)值合并第42頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月基因不同命名第43頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月重復(fù)值合并第44頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月GeneIDconverter第45頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,而這一個(gè)值是給定基因/條件的代表。通常的合并是指計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。然而,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。去除奇異值??梢酝ㄟ^(guò)計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。第46頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)變換的目的是在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。對(duì)數(shù)轉(zhuǎn)化(log-transformation)中心化處理(center)單位圓化正態(tài)化(均值為0,方差為1)第47頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月缺失數(shù)據(jù)處理芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。未觀測(cè)點(diǎn)若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理刪除含有缺失值的整條記錄,這種方法操作簡(jiǎn)單,但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量有價(jià)值的信息填充或修補(bǔ)缺失數(shù)據(jù)第48頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第49頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月缺失數(shù)據(jù)的處理固定值法,比如0或者1行平均法使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對(duì)缺失值進(jìn)行估計(jì)。使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分解法,KNN法。其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大可能性分析第50頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月KNN法K最近鄰法(K-nearestneighborhoodmethod):假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算此包含缺失值的基因與在該指標(biāo)上無(wú)缺失的基因間的相似性指標(biāo)或距離指標(biāo)(相似性或距離的計(jì)算中不包括欲估計(jì)的指標(biāo)),與該基因相似性最大的K個(gè)基因稱為該基因的K個(gè)最近鄰(knearestneighborhoods),這K個(gè)基因在該觀測(cè)指標(biāo)上的數(shù)據(jù)就是估計(jì)缺失基因數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這K個(gè)基因在該指標(biāo)上的均數(shù),也可以是這K個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。第51頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第52頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月基因篩選(geneselection)在進(jìn)行分析之前,要先選擇用來(lái)分析的基因。不然所有的基因有上萬(wàn)條,也就是數(shù)據(jù)矩陣有上萬(wàn)行時(shí),既增加了運(yùn)算的難度,又引入了不必要的基因,也增加了解釋結(jié)果的難度,要預(yù)先進(jìn)行基因的濾取。當(dāng)一條基因表達(dá)譜數(shù)據(jù)中的無(wú)效數(shù)據(jù)個(gè)數(shù)超過(guò)一定的范圍時(shí),這條基因就認(rèn)為是一條無(wú)效基因,在以后的聚類分析中不把這條基因考慮在內(nèi)。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小,也就是說(shuō),數(shù)據(jù)的方差小于一定的范圍,意味著這條基因與所要研究的生物過(guò)程或?qū)ο箨P(guān)聯(lián)很小,也被濾掉,不進(jìn)行聚類分析。差異表達(dá)次數(shù)第53頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月第54頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月基因篩選針對(duì)特別目的選取,比如選取不同類之間差異表達(dá)基因。常用的方法,假設(shè)檢驗(yàn),比如t檢驗(yàn),F(xiàn)檢驗(yàn)等不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性。常用方法,主成分分析等。第55頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月發(fā)展新算法新角度合并多種方法第56頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月主成分分析
(PrincipleComponentAnalysis)第57頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月降維概述降維是指將樣本從輸入空間通過(guò)線性或非線性映射到一個(gè)低維空間。
降維可以減少無(wú)用信息和冗余信息,將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了后續(xù)步驟處理的計(jì)算量,當(dāng)降至三維以下時(shí)還可用于可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。第58頁(yè),課件共63頁(yè),創(chuàng)作于2023年2月主成分分析(PCA,principalcomponentanalysis)對(duì)于一組原始隨機(jī)變量為X1,…,Xp,尋找一個(gè)新的變量
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)用車買賣合同協(xié)議書
- 建筑企業(yè)勞務(wù)合同
- 新能源車輛租賃合同
- 建筑水電工程勞務(wù)合同
- 勞動(dòng)法律服務(wù)合同
- 信托資金借款合同經(jīng)典
- 保護(hù)市場(chǎng)協(xié)議合同
- 水電費(fèi)剩余合同協(xié)議書
- 建設(shè)合同作廢協(xié)議
- 居間供貨合同協(xié)議
- 五子棋入門教程ppt
- 病人自殺后的應(yīng)急預(yù)案與流程
- 18.光伏支架安裝、太陽(yáng)能組件自檢記錄
- 站臺(tái)填筑檢驗(yàn)批質(zhì)量驗(yàn)收記錄表
- 給排水管道工程實(shí)體質(zhì)量檢查評(píng)分表
- 城南小學(xué)“國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)”工作應(yīng)急預(yù)案
- 山東大學(xué)電動(dòng)力學(xué)課件25習(xí)題課
- 最新云南省地圖含市縣地圖矢量分層可編輯地圖PPT模板
- SAP模塊介紹及功能模塊關(guān)聯(lián)圖(ppt 63頁(yè))
- 2018 年全國(guó)高校俄語(yǔ)專業(yè)四級(jí)水平測(cè)試試卷
- 危大專項(xiàng)檢查表
評(píng)論
0/150
提交評(píng)論