《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件_第1頁
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件_第2頁
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件_第3頁
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件_第4頁
《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基因芯片技術(shù)Genechiptechnology基因芯片技術(shù)Genechiptechnology1內(nèi)容提要:第一節(jié)差異表達(dá)基因分析第二節(jié)聚類分析第三節(jié)主成分分析第8章利用基因芯片進(jìn)行差異表達(dá)基因分析內(nèi)容提要:第8章利用基因芯片進(jìn)行差異表達(dá)基因分析2第一節(jié)差異表達(dá)基因分析

第一節(jié)差異表達(dá)基因分析3單張cDNA芯片差異表達(dá)基因Aerobic需氧Anaerobic不需氧單張cDNA芯片差異表達(dá)基因Aerobic需氧4差異表達(dá)基因分析基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個樣本間差異表達(dá)基因。通常采用基因在實(shí)驗(yàn)組和對照組中信號的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異。在雙色熒光系統(tǒng)中,用Cy5/Cy3的比值來衡量基因的表達(dá)差異,也稱表達(dá)差異值。差異表達(dá)基因分析基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個樣5差異表達(dá)基因分析在Affymetrix等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對照組分別用兩張芯片進(jìn)行檢測,表達(dá)差異值即為兩張芯片的信號比值。噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來了很大的麻煩。必須設(shè)定一個差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值。

差異表達(dá)基因分析在Affymetrix等短的寡核苷酸芯片中,6如何確定差異表達(dá)基因的閾值

倍數(shù)法優(yōu)點(diǎn):簡單、直接。缺點(diǎn):沒有考慮差異表達(dá)的統(tǒng)計顯著性。比如,在某個實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為2倍,則有可能找不到幾個差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽性率。

如何確定差異表達(dá)基因的閾值

倍數(shù)法優(yōu)點(diǎn):簡單、直接。7Z值法

在一張cDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有一小部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。Z=(X-μ)/σ.|Z|>=1.96在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只有一小部分基因有表達(dá),可以假定強(qiáng)度滿足對數(shù)正態(tài)分布,同樣可以對其作Z變換,使其具有統(tǒng)計意義。Z值法在一張cDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因8Z值法

缺點(diǎn):如果實(shí)驗(yàn)體系中沒有一條差異表達(dá)的基因,Z值法還是會挑選出5%的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽性點(diǎn)。如果實(shí)際上實(shí)驗(yàn)中有大量的基因表達(dá)發(fā)生改變,Z值法還是機(jī)械的找出5%的差異表達(dá)基因,丟失了一部分真陽性點(diǎn)。Z值法缺點(diǎn):9排秩統(tǒng)計量法選擇一個統(tǒng)計量給基因排秩(研究多,方法多)為排秩統(tǒng)計量選擇一個閾值,在閾值之上的值將被認(rèn)為是表達(dá)差異顯著的值排秩統(tǒng)計量法選擇一個統(tǒng)計量給基因排秩(研究多,方法多)10重復(fù)芯片(replicates)M值法根據(jù)比率平均值或M值對基因排序。M值為信號強(qiáng)度比值的log2值,M杠是任一特定基因在重復(fù)序列中M值的均值。缺點(diǎn):這一排序法忽略了一個基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個基因在某一張芯片上M值很大,但在其他芯片上M值很小,其實(shí)這條基因并沒有差異表達(dá),但由于個別M值的影響,從而顯示出一個差異表達(dá)的特性,造成假陽性。重復(fù)芯片(replicates)M值法根據(jù)比率平均值或M值對11T值排序假如一個基因在幾張重復(fù)芯片的M值都很小,但是這些M值非常接近,所以s值也非常小,這樣可能會導(dǎo)致t值很大,從而會把這個本沒有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。T值排序假如一個基因在幾張重復(fù)芯片的M值都很小,但是這些M值12修正的T值法修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計而得。結(jié)果顯示:在一個模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正t-統(tǒng)計量給基因排秩比用均數(shù)和一般的t-統(tǒng)計量效果要好。修正的T值法修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計而得。結(jié)果顯示13單通道寡核苷酸芯片差異基因(兩個樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計方法計算出一個統(tǒng)計性的P值或者score值,篩選差異表達(dá)基因。單通道寡核苷酸芯片差異基因(兩個樣本直接比較)Affymet14不同類樣本差異基因識別不同類樣本差異基因識別15評價一組數(shù)的統(tǒng)計量平均值標(biāo)準(zhǔn)差評價一組數(shù)的統(tǒng)計量平均值標(biāo)準(zhǔn)差16比較多組數(shù)的方法T檢驗(yàn):平均值F檢驗(yàn):方差比較多組數(shù)的方法T檢驗(yàn):平均值17《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件18《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件19SAM(significanceanalysisofmicroarrays)

微陣列顯著性分析

在單通道Oligo芯片中,尤其是affymetrix芯片數(shù)據(jù)分析中用得較多SAM(significanceanalysisofm20《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件21雙通道cDNA芯片數(shù)據(jù)分析用得較多雙通道cDNA芯片數(shù)據(jù)分析用得較多22FalseDiscoveryRate(FDR)錯誤發(fā)現(xiàn)率統(tǒng)計學(xué)家都想用更符合統(tǒng)計學(xué)的手段得到差異基因,即通過假設(shè)檢驗(yàn)后,賦予每個基因統(tǒng)計顯著性或者P值,使得每個基因的判別更有統(tǒng)計學(xué)上的意義。為了達(dá)到這個目的,統(tǒng)計學(xué)家們常常用控制錯誤發(fā)現(xiàn)率(FalseDiscoveryRate)的方法來判斷差異基因。錯誤發(fā)現(xiàn)率是評估檢驗(yàn)統(tǒng)計顯著性的最有力工具之一。FalseDiscoveryRate(FDR)錯誤發(fā)現(xiàn)23Multipletest(P-valueadjustment)

多重檢驗(yàn)(P-價值判斷)Multipletest(P-valueadjustm24火山圖(volcanoplot)Statisticaltest:P-value(統(tǒng)計檢驗(yàn):P值)Foldchange:Ratio(折疊變換:比率)火山圖(volcanoplot)Statisticalt25其他方法B-statistics(Smyth,2004)BayesT-test(BaldiandLong,2001)SAMROC(Broberg,2002)Zhao-Panmethod(ZhaoandPan,2003)……其他方法B-statistics(Smyth,2004)26ImprovedDetectionofDifferentiallyExpressedGenes對差異表達(dá)基因的改良性觀測

Timeseriesmicroarraydataset微陣列數(shù)據(jù)的時間序列ImprovedDetectionofDifferen27聚類:發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一些能識別這些樣本狀態(tài)的基因,或者說發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。歸類(分類):基于已有知識,并有改進(jìn)現(xiàn)有知識的潛力,通過訓(xùn)練分類器來辨識與已知細(xì)胞狀態(tài)或疾病亞型相類似的樣本,或者是與已知的共調(diào)控基因表達(dá)相似的基因。第二節(jié)基因芯片聚類分析

聚類:發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一些能識別這些樣28分類(classification)分類(classification)29《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件30分類(classification)樣本分類情況已知分類基因選取分類準(zhǔn)確性判斷:準(zhǔn)確率,相關(guān)性分類(classification)樣本分類情況已知31層級聚類方法:得到類似于進(jìn)化分析的系統(tǒng)樹圖,具有相似表達(dá)譜的基因彼此臨近,他們可能具有相似的功能。其重要思想是:先將n個樣本看成n類,計算類間的距離,再將相似性最高的兩類合并成為一個新類,得到n-1類,再重新計算關(guān)系矩陣,不斷重復(fù)這個過程直至所有的基因融合成為一個層級聚類方法:得到類似于進(jìn)化分析的系統(tǒng)樹圖,具有相似表達(dá)譜的32基因表達(dá)數(shù)據(jù)矩陣

(AffymetrixGeneChip?oligonucleotidearrays)GeneexpressiontableX:logsam/refintensitiesX>0:geneisoverexpressedX<0:geneisunderexpressed基因表達(dá)數(shù)據(jù)矩陣(AffymetrixGeneChip?33基因表達(dá)數(shù)據(jù)矩陣(glassslides)GeneexpressiontableX:logred/greenintensitiesX>0:geneisoverexpressedX<0:geneisunderexpressed基因表達(dá)數(shù)據(jù)矩陣(glassslides)Geneex34數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式35數(shù)據(jù)形式對任意一個基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是M對任意一個樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是N數(shù)據(jù)矩陣,基因數(shù)遠(yuǎn)大于樣品數(shù)。聚類時,考查基因間的相似性,從數(shù)學(xué)上講就是看對應(yīng)的M維數(shù)據(jù)之間的相似性。數(shù)據(jù)形式對任意一個基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是M數(shù)36Cluster&Treeview軟件Cluster&Treeview軟件37Cluster&Treeview軟件Cluster&Treeview軟件38Genesis軟件Genesis軟件39預(yù)分析(Pre-Analysis)重復(fù)值合并(replicatehandling)數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(datatransformationandstandardization)缺失數(shù)據(jù)處理(missingvaluemanagement)基因篩選(patternselection)預(yù)分析(Pre-Analysis)重復(fù)值合并(replic40重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個數(shù)值可能更為方便,而這一個值是給定基因/條件的代表。通常的合并:計算這些重復(fù)值的集中趨勢指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。但是,使用一個集中趨勢指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。去除奇異值:可以通過計算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個數(shù)值可能更為方41重復(fù)值合并:

重復(fù)值合并:

42數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計分析。對數(shù)轉(zhuǎn)化(log-transformation)中心化處理(center)單位圓化正態(tài)化(均值為0,方差為1)數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的43缺失數(shù)據(jù)處理芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。未觀測點(diǎn)若后續(xù)的統(tǒng)計分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,則需要對含有缺失值的數(shù)據(jù)進(jìn)行處理刪除含有缺失值的整條記錄,這種方法操作簡單,但卻因?yàn)閭€別值的缺失而刪除整個記錄,可能丟失大量有價值的信息填充或修補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)處理芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)到44缺失數(shù)據(jù)的處理固定值法,比如0或者1行平均法使用重復(fù)數(shù)據(jù)點(diǎn)對缺失數(shù)據(jù)進(jìn)行填充。對于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對缺失值進(jìn)行估計。使用基因間的相關(guān)性對缺失數(shù)據(jù)進(jìn)行填充。奇異值分解法,KNN法。其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大可能性分析缺失數(shù)據(jù)的處理固定值法,比如0或者145缺失數(shù)據(jù)的處理方法——KNN法K最近鄰法(K-nearestneighborhoodmethod):假定某個基因在某個指標(biāo)上含有缺失值,計算含缺失值的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。與該基因相似性最大的K個基因稱為該基因的K個最近鄰,這K個基因在該指標(biāo)上的數(shù)據(jù)就是估計該基因缺失數(shù)據(jù)的基礎(chǔ),估計值可以是這K個基因在該指標(biāo)上的均數(shù),也可以是這K個基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。

缺失數(shù)據(jù)的處理方法——KNN法K最近鄰法(K-nearest46《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件47基因篩選(geneselection)在進(jìn)行分析之前,要先選擇用來分析的基因。芯片中的基因有上萬條,相應(yīng)的數(shù)據(jù)矩陣也有上萬行時,要預(yù)先進(jìn)行基因的濾取,否則既會增加運(yùn)算的難度,又會引入了不必要的基因,更增加了解釋結(jié)果的難度。去掉無效基因,當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無效數(shù)據(jù)個數(shù)超過一定范圍時,該基因就被認(rèn)為是一條無效基因,在聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動很小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要研究的生物過程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉。基因篩選(geneselection)在進(jìn)行分析之前,要先48基因篩選針對特別目的的基因篩選,如篩選不同類之間差異表達(dá)基因,常用假設(shè)檢驗(yàn)的方法,比如t檢驗(yàn)、F檢驗(yàn)等?;蚝Y選針對特別目的的基因篩選,如篩選不同類之間差異表達(dá)基因49發(fā)展新算法新角度合并多種方法發(fā)展新算法新角度合并多種方法50第三節(jié)主成分分析

(PrincipleComponentAnalysis,PCA)不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性,常用主成分分析法。第三節(jié)主成分分析

(PrincipleComponen51降維概述降維:指將樣本從輸入空間通過線性或非線性映射到一個低維空間。降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無用信息和冗余信息,減少了后續(xù)的計算量。當(dāng)降至三維以下時,可以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。降維概述降維:指將樣本從輸入空間通過線性或非線性映射到一個低52主成分分析(PCA,principalcomponentanalysis)

對于一組原始隨機(jī)變量為X1,…,Xp,尋找一個新的變量Z1,這個新的變量是原始變量的線性組合,Z1=a11X1+a21X2+…+ap1Xp,并使得Z1的變異最大化Z1即為原始變量的最大主成分,它使用一個變量試圖最大化地包含一組變量的變異。通常一個變量還不足夠,因此,需要尋找第二個主成分Z2,Z2與Z1不相關(guān),且是除Z1外具有最大方差的原始變量的線性組合。主成分分析(PCA,principalcomponent53主成分分析主成分分析54《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課件55《基因芯片技術(shù)》第8章-利用基因芯片進(jìn)行差異表達(dá)基因分析課

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論