版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第七講差異表達(dá)分析第1頁,課件共63頁,創(chuàng)作于2023年2月QuantileNormalization使每張芯片/通道的強(qiáng)度值有相同的分布(intensitydistribution)第2頁,課件共63頁,創(chuàng)作于2023年2月QuantilenormalizationBeforeAfterQuantilenormalization第3頁,課件共63頁,創(chuàng)作于2023年2月第4頁,課件共63頁,創(chuàng)作于2023年2月第5頁,課件共63頁,創(chuàng)作于2023年2月第6頁,課件共63頁,創(chuàng)作于2023年2月R語言和bioconductor第7頁,課件共63頁,創(chuàng)作于2023年2月第8頁,課件共63頁,創(chuàng)作于2023年2月差異表達(dá)基因分析第9頁,課件共63頁,創(chuàng)作于2023年2月單張cDNA芯片差異表達(dá)基因第10頁,課件共63頁,創(chuàng)作于2023年2月差異表達(dá)基因分析基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。通常采用基因在實(shí)驗(yàn)組和對照組中信號的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異,在雙色熒光系統(tǒng)中,用Cy5/Cy3的比值來衡量基因的表達(dá)差異,也稱表達(dá)差異值。在Affymetrix等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對照組分別用兩張芯片進(jìn)行檢測,表達(dá)差異值即為兩張芯片的信號比值。噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來了很大的麻煩。必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。第11頁,課件共63頁,創(chuàng)作于2023年2月倍數(shù)法第12頁,課件共63頁,創(chuàng)作于2023年2月倍數(shù)法倍數(shù)法是比較常用的一種方法,因?yàn)楸容^簡單和直接。但是,這種方法也是有其重大缺陷的。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為2倍,則有可能找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽性率。這一方法沒有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性。第13頁,課件共63頁,創(chuàng)作于2023年2月Z值法在一張cDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有很小一部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。Z=(X-μ)/σ.|Z|>=1.96在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只是有很小一部分基因有表達(dá),可以假定強(qiáng)度滿足對數(shù)正態(tài)分布,同樣可以對其作Z變換,使其具有統(tǒng)計(jì)意義。如果實(shí)驗(yàn)體系中沒有一條差異表達(dá)的基因,Z值法還是會(huì)挑選出5%的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽性點(diǎn)。如果實(shí)際上實(shí)驗(yàn)中有大量的基因發(fā)生表達(dá)改變,Z值法還是機(jī)械的找出5%的差異表達(dá)基因,丟失了一部分真陽性點(diǎn)。第14頁,課件共63頁,創(chuàng)作于2023年2月一般性的方法選擇一個(gè)統(tǒng)計(jì)量給基因排秩來證明表達(dá)有差異為排秩統(tǒng)計(jì)量選擇一個(gè)判別值,在它之上的值將被認(rèn)為是顯著的前面一個(gè)部分更為重要,所以研究的較多,方法也更多,后面那部分的方法稍微簡單第15頁,課件共63頁,創(chuàng)作于2023年2月重復(fù)芯片(replicates)M值根據(jù)比率平均值或?qū)蚺判颉值為信號強(qiáng)度比值的log2值,是任一特定基因在重復(fù)序列中M值的均值。這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上M值很大,但在其他芯片上M值很小,其實(shí)這條基因并沒有差異表達(dá),但由于個(gè)別M值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽性。第16頁,課件共63頁,創(chuàng)作于2023年2月T值排序假如一個(gè)基因在幾張重復(fù)芯片的M值都很小,但是這些M值非常接近,所以s值也非常小,這樣可能會(huì)導(dǎo)致t值很大,從而會(huì)把這個(gè)本沒有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。第17頁,課件共63頁,創(chuàng)作于2023年2月修正的T值修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正t-統(tǒng)計(jì)量給基因排秩比用均數(shù)和一般的t-統(tǒng)計(jì)量效果要好。第18頁,課件共63頁,創(chuàng)作于2023年2月單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者score值,篩選差異表達(dá)基因第19頁,課件共63頁,創(chuàng)作于2023年2月不同類樣本差異基因識別第20頁,課件共63頁,創(chuàng)作于2023年2月評價(jià)一組數(shù)的統(tǒng)計(jì)量平均值標(biāo)準(zhǔn)差232.7198.2137.784.3218.6181.5216.787第21頁,課件共63頁,創(chuàng)作于2023年2月比較多組數(shù)的方法T檢驗(yàn):平均值F檢驗(yàn):方差第22頁,課件共63頁,創(chuàng)作于2023年2月第23頁,課件共63頁,創(chuàng)作于2023年2月第24頁,課件共63頁,創(chuàng)作于2023年2月SAM(significanceanalysisofmicroarrays)
單通道Oligo芯片,尤其是affymetrix芯片數(shù)據(jù)分析用得較多第25頁,課件共63頁,創(chuàng)作于2023年2月第26頁,課件共63頁,創(chuàng)作于2023年2月雙通道cDNA芯片數(shù)據(jù)分析用得較多第27頁,課件共63頁,創(chuàng)作于2023年2月FalseDiscoveryRate(FDR)錯(cuò)誤發(fā)現(xiàn)率是評估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具。統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,具體說來就是想用假設(shè)檢驗(yàn)后賦予每個(gè)基因統(tǒng)計(jì)顯著性或者P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上的意義。為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(FalseDiscoveryRate)的方法來判斷差異基因。第28頁,課件共63頁,創(chuàng)作于2023年2月Multipletest(Pvalueadjustment)第29頁,課件共63頁,創(chuàng)作于2023年2月火山圖(volcanoplot)Statisticaltest:PvalueFoldchange:Ratio第30頁,課件共63頁,創(chuàng)作于2023年2月其他方法B-statistics(Smyth,2004)BayesT-test(BaldiandLong,2001)SAMROC(Broberg,2002)Zhao-Panmethod(ZhaoandPan,2003)……第31頁,課件共63頁,創(chuàng)作于2023年2月ImprovedDetectionofDifferentiallyExpressedGenesTimeseriesmicroarraydataset第32頁,課件共63頁,創(chuàng)作于2023年2月聚類分析第33頁,課件共63頁,創(chuàng)作于2023年2月基因表達(dá)數(shù)據(jù)矩陣(AffymetrixGeneChip?oligonucleotidearrays)sam/ref第34頁,課件共63頁,創(chuàng)作于2023年2月基因表達(dá)數(shù)據(jù)矩陣(glassslides)第35頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)矩陣具體形式第36頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)形式數(shù)據(jù)矩陣,基因數(shù)遠(yuǎn)大于樣品數(shù)對任意一個(gè)基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是M對任意一個(gè)樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是N聚類時(shí)考慮基因之間的相似性,從數(shù)學(xué)上講就是看對應(yīng)的M維數(shù)據(jù)之間的相似性第37頁,課件共63頁,創(chuàng)作于2023年2月Cluster&Treeview軟件第38頁,課件共63頁,創(chuàng)作于2023年2月Cluster&Treeview軟件第39頁,課件共63頁,創(chuàng)作于2023年2月Genesis軟件第40頁,課件共63頁,創(chuàng)作于2023年2月預(yù)分析(Pre-Analysis)重復(fù)值合并(replicatehandling)數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(datatransformationandstandardization)缺失數(shù)據(jù)處理(missingvaluemanagement)基因篩選(patternselection)第41頁,課件共63頁,創(chuàng)作于2023年2月重復(fù)值合并第42頁,課件共63頁,創(chuàng)作于2023年2月基因不同命名第43頁,課件共63頁,創(chuàng)作于2023年2月重復(fù)值合并第44頁,課件共63頁,創(chuàng)作于2023年2月GeneIDconverter第45頁,課件共63頁,創(chuàng)作于2023年2月重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,而這一個(gè)值是給定基因/條件的代表。通常的合并是指計(jì)算這些重復(fù)值的集中趨勢指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。然而,使用一個(gè)集中趨勢指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。去除奇異值??梢酝ㄟ^計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。第46頁,課件共63頁,創(chuàng)作于2023年2月數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)變換的目的是在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。對數(shù)轉(zhuǎn)化(log-transformation)中心化處理(center)單位圓化正態(tài)化(均值為0,方差為1)第47頁,課件共63頁,創(chuàng)作于2023年2月缺失數(shù)據(jù)處理芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。未觀測點(diǎn)若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,則需要對含有缺失值的數(shù)據(jù)進(jìn)行處理刪除含有缺失值的整條記錄,這種方法操作簡單,但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量有價(jià)值的信息填充或修補(bǔ)缺失數(shù)據(jù)第48頁,課件共63頁,創(chuàng)作于2023年2月第49頁,課件共63頁,創(chuàng)作于2023年2月缺失數(shù)據(jù)的處理固定值法,比如0或者1行平均法使用重復(fù)數(shù)據(jù)點(diǎn)對缺失數(shù)據(jù)進(jìn)行填充。對于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對缺失值進(jìn)行估計(jì)。使用基因間的相關(guān)性對缺失數(shù)據(jù)進(jìn)行填充。奇異值分解法,KNN法。其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大可能性分析第50頁,課件共63頁,創(chuàng)作于2023年2月KNN法K最近鄰法(K-nearestneighborhoodmethod):假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算此包含缺失值的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)或距離指標(biāo)(相似性或距離的計(jì)算中不包括欲估計(jì)的指標(biāo)),與該基因相似性最大的K個(gè)基因稱為該基因的K個(gè)最近鄰(knearestneighborhoods),這K個(gè)基因在該觀測指標(biāo)上的數(shù)據(jù)就是估計(jì)缺失基因數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這K個(gè)基因在該指標(biāo)上的均數(shù),也可以是這K個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。第51頁,課件共63頁,創(chuàng)作于2023年2月第52頁,課件共63頁,創(chuàng)作于2023年2月基因篩選(geneselection)在進(jìn)行分析之前,要先選擇用來分析的基因。不然所有的基因有上萬條,也就是數(shù)據(jù)矩陣有上萬行時(shí),既增加了運(yùn)算的難度,又引入了不必要的基因,也增加了解釋結(jié)果的難度,要預(yù)先進(jìn)行基因的濾取。當(dāng)一條基因表達(dá)譜數(shù)據(jù)中的無效數(shù)據(jù)個(gè)數(shù)超過一定的范圍時(shí),這條基因就認(rèn)為是一條無效基因,在以后的聚類分析中不把這條基因考慮在內(nèi)。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小,也就是說,數(shù)據(jù)的方差小于一定的范圍,意味著這條基因與所要研究的生物過程或?qū)ο箨P(guān)聯(lián)很小,也被濾掉,不進(jìn)行聚類分析。差異表達(dá)次數(shù)第53頁,課件共63頁,創(chuàng)作于2023年2月第54頁,課件共63頁,創(chuàng)作于2023年2月基因篩選針對特別目的選取,比如選取不同類之間差異表達(dá)基因。常用的方法,假設(shè)檢驗(yàn),比如t檢驗(yàn),F(xiàn)檢驗(yàn)等不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性。常用方法,主成分分析等。第55頁,課件共63頁,創(chuàng)作于2023年2月發(fā)展新算法新角度合并多種方法第56頁,課件共63頁,創(chuàng)作于2023年2月主成分分析
(PrincipleComponentAnalysis)第57頁,課件共63頁,創(chuàng)作于2023年2月降維概述降維是指將樣本從輸入空間通過線性或非線性映射到一個(gè)低維空間。
降維可以減少無用信息和冗余信息,將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了后續(xù)步驟處理的計(jì)算量,當(dāng)降至三維以下時(shí)還可用于可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。第58頁,課件共63頁,創(chuàng)作于2023年2月主成分分析(PCA,principalcomponentanalysis)對于一組原始隨機(jī)變量為X1,…,Xp,尋找一個(gè)新的變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高壓瓷介電容器項(xiàng)目年度分析報(bào)告
- 石河子大學(xué)《應(yīng)急決策理論與方法》2022-2023學(xué)年第一學(xué)期期末試卷
- 初一上冊語文3篇
- 石河子大學(xué)《數(shù)學(xué)文化》2021-2022學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《編譯原理》2021-2022學(xué)年第一學(xué)期期末試卷
- 沈陽理工大學(xué)《數(shù)理統(tǒng)計(jì)與隨機(jī)過程》2021-2022學(xué)年第一學(xué)期期末試卷
- 沈陽理工大學(xué)《控制工程基礎(chǔ)與信號處理》2021-2022學(xué)年期末試卷
- 2022-23-1 本 概論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 沈陽理工大學(xué)《常微分方程》2022-2023學(xué)年第一學(xué)期期末試卷
- 國際貨物買賣合同術(shù)語條款
- 百合干(食品安全企業(yè)標(biāo)準(zhǔn))
- 肺血栓栓塞癥臨床路徑(縣級醫(yī)院版)
- 國開成本會(huì)計(jì)第10章綜合練習(xí)試題及答案
- 《西游記》-三打白骨精(劇本臺詞)精選
- T∕CSCS 012-2021 多高層建筑全螺栓連接裝配式鋼結(jié)構(gòu)技術(shù)標(biāo)準(zhǔn)-(高清版)
- 充電站項(xiàng)目合作方案-高新
- 天然水晶介紹PPT
- 急診科臨床診療指南-技術(shù)操作規(guī)范更新版
- 精通版六年級上冊小學(xué)英語 Unit 3 單元知識點(diǎn)小結(jié)
- 名字的來歷-完整版PPT
- 公路新建工程標(biāo)準(zhǔn)化質(zhì)量管理手冊
評論
0/150
提交評論