




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基因芯片技術(shù)基因芯片技術(shù)Gene chip technology內(nèi)容提要:內(nèi)容提要:l第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析l第二節(jié)第二節(jié) 聚類分析聚類分析l第三節(jié)第三節(jié) 主成分分析主成分分析第第8章章 利用基因芯片進(jìn)行差異表達(dá)基因分析利用基因芯片進(jìn)行差異表達(dá)基因分析第一節(jié)第一節(jié) 差異表達(dá)基因分析差異表達(dá)基因分析 單張單張cDNAcDNA芯片差異表達(dá)基因芯片差異表達(dá)基因Aerobic 需氧Anaerobic不需氧差異表達(dá)基因分析差異表達(dá)基因分析l基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。本間差異表達(dá)基因。l通常采用基因在實(shí)
2、驗(yàn)組和對(duì)照組中信號(hào)的比值作為通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異。衡量基因在兩種狀態(tài)下基因的表達(dá)差異。l在雙色熒光系統(tǒng)中,用在雙色熒光系統(tǒng)中,用Cy5/Cy3Cy5/Cy3的比值來衡量基因的的比值來衡量基因的表達(dá)差異,也稱表達(dá)差異,也稱表達(dá)差異值表達(dá)差異值。差異表達(dá)基因分析差異表達(dá)基因分析l在在AffymetrixAffymetrix等短的寡核苷酸芯片中,采用單色熒等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè),行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比值表達(dá)差異值即為兩張芯片
3、的信號(hào)比值。l噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來了很大的麻煩。給篩選差異表達(dá)基因帶來了很大的麻煩。l必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的的標(biāo)準(zhǔn)就稱為差異表達(dá)基因的閾值閾值。 如何確定差異表達(dá)基因的閾值如何確定差異表達(dá)基因的閾值倍數(shù)法倍數(shù)法l優(yōu)點(diǎn):簡單、直接。優(yōu)點(diǎn):簡單、直接。l缺點(diǎn):沒有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如,在某個(gè)實(shí)驗(yàn)中,缺點(diǎn):沒有考慮差異表達(dá)的統(tǒng)計(jì)顯著性。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為基因表達(dá)水平的
4、變化不大,如果選擇判別域值為2 2倍,則有可能倍,則有可能找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀找不到幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽性率。縮小判斷域值,又有可能增大假陽性率。 Z Z值法值法 l在一張?jiān)谝粡坈DNAcDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有一小部分表達(dá)有差異,所以一般都因中只有一小部分表達(dá)有差異,所以一般都假設(shè)假設(shè)表達(dá)表達(dá)的比率值滿足正態(tài)分布的比率值滿足正態(tài)分布。lZ=(X-Z=(X- )/)/. |Z|=1.96. |Z|=1.96l在寡核苷酸芯片中,芯片上的基因在相
5、應(yīng)實(shí)驗(yàn)條件下在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只有一小部分基因有表達(dá),可以或相應(yīng)組織中也只有一小部分基因有表達(dá),可以假定假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作,同樣可以對(duì)其作Z Z變換,使其變換,使其具有統(tǒng)計(jì)意義。具有統(tǒng)計(jì)意義。Z Z值法值法 缺點(diǎn):缺點(diǎn):l如果實(shí)驗(yàn)體系中沒有一條差異表達(dá)的基因,如果實(shí)驗(yàn)體系中沒有一條差異表達(dá)的基因,Z Z值法還是值法還是會(huì)挑選出會(huì)挑選出5 5的差異表達(dá)基因的差異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽性點(diǎn)??傆幸恍┯捎诒尘霸肼暜a(chǎn)生的假陽性點(diǎn)。l如果實(shí)際上實(shí)驗(yàn)中有大量的
6、基因表達(dá)發(fā)生改變,如果實(shí)際上實(shí)驗(yàn)中有大量的基因表達(dá)發(fā)生改變,Z Z值法值法還是機(jī)械的找出還是機(jī)械的找出5 5的差異表達(dá)基因,丟失了一部分真的差異表達(dá)基因,丟失了一部分真陽性點(diǎn)。陽性點(diǎn)。 排秩統(tǒng)計(jì)量法排秩統(tǒng)計(jì)量法l選擇一個(gè)統(tǒng)計(jì)量給基因排秩(研究多,方法多)選擇一個(gè)統(tǒng)計(jì)量給基因排秩(研究多,方法多)l為排秩統(tǒng)計(jì)量選擇一個(gè)閾值,在閾值之上的值將為排秩統(tǒng)計(jì)量選擇一個(gè)閾值,在閾值之上的值將被認(rèn)為是表達(dá)差異顯著的值被認(rèn)為是表達(dá)差異顯著的值重復(fù)芯片(重復(fù)芯片(replicatesreplicates)M M值法值法l根據(jù)比率平均值或根據(jù)比率平均值或M M值對(duì)基因排序。值對(duì)基因排序。M M值為信號(hào)強(qiáng)值為信號(hào)強(qiáng)
7、度比值的度比值的log2log2值,值,M M杠是任一特定基因在重復(fù)序列杠是任一特定基因在重復(fù)序列中中M M值的均值。值的均值。l缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中缺點(diǎn):這一排序法忽略了一個(gè)基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上某一個(gè)基因在某一張芯片上M M值很大,但在其他芯值很大,但在其他芯片上片上M M值很小,其實(shí)這條基因并沒有差異表達(dá),但值很小,其實(shí)這條基因并沒有差異表達(dá),但由于個(gè)別由于個(gè)別M M值的影響,從而顯示出一個(gè)差異表達(dá)的值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽性特性,造成假陽性
8、。 T T值排序值排序l假如一個(gè)基因在幾張重復(fù)芯片的假如一個(gè)基因在幾張重復(fù)芯片的M M值都很小,值都很小,但是這些但是這些M M值非常接近,所以值非常接近,所以s s值也非常小,這值也非常小,這樣可能會(huì)導(dǎo)致樣可能會(huì)導(dǎo)致t t值很大,從而會(huì)把這個(gè)本沒有值很大,從而會(huì)把這個(gè)本沒有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。差異表達(dá)的基因誤認(rèn)為差異表達(dá)。 修正的修正的T T值法值法l修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正一些經(jīng)驗(yàn)性質(zhì),但用修正t-t-統(tǒng)計(jì)量給基因排秩統(tǒng)計(jì)量
9、給基因排秩比用均數(shù)和一般的比用均數(shù)和一般的t-t-統(tǒng)計(jì)量效果要好。統(tǒng)計(jì)量效果要好。 單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者值或者score值,篩選差異表達(dá)基因。值,篩選差異表達(dá)基因。不同類樣本差異基因識(shí)別不同類樣本差異基因識(shí)別評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量l平均值平均值 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差232.7232.7198.2198.2137.7137.784.384.3218.6218.6181
10、.5181.5216.7216.78787比較多組數(shù)的方法比較多組數(shù)的方法lT檢驗(yàn):平均值檢驗(yàn):平均值lF檢驗(yàn):檢驗(yàn): 方差方差SAM(significance analysis of microarrays)微陣列顯著性分析微陣列顯著性分析 在單通道在單通道Oligo芯片中,尤其芯片中,尤其是是affymetrix芯芯片數(shù)據(jù)分析中片數(shù)據(jù)分析中用得較多用得較多雙通道雙通道cDNA芯片數(shù)據(jù)分析用得較多芯片數(shù)據(jù)分析用得較多False Discovery Rate (FDR)錯(cuò)誤發(fā)現(xiàn)率錯(cuò)誤發(fā)現(xiàn)率l統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,即通過假設(shè)檢驗(yàn)后
11、,賦予每個(gè)基因統(tǒng)計(jì)顯著因,即通過假設(shè)檢驗(yàn)后,賦予每個(gè)基因統(tǒng)計(jì)顯著性或者性或者P P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上的意義。的意義。l為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(發(fā)現(xiàn)率(False Discovery RateFalse Discovery Rate)的方法來判斷)的方法來判斷差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的差異基因。錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具之一。最有力工具之一。 Multiple test (P-value adjustment)多重檢驗(yàn)(多重檢驗(yàn)(P-價(jià)值判斷)價(jià)值
12、判斷)火山圖(火山圖(volcano plot)lStatistical test: P-value(統(tǒng)計(jì)檢驗(yàn):P值)lFold change: Ratio(折疊變換:比率)其他方法lB-statistics (Smyth,2004)lBayes T-test (Baldi and Long, 2001)lSAMROC (Broberg, 2002)lZhao-Pan method (Zhao and Pan, 2003)l lImproved Detection of Differentially Expressed Genesl對(duì)差異表達(dá)基因的改良性觀測(cè)對(duì)差異表達(dá)基因的改良性觀測(cè) lTim
13、e series microarray dataset 微陣列數(shù)據(jù)的時(shí)間序列微陣列數(shù)據(jù)的時(shí)間序列 聚類:聚類:發(fā)現(xiàn)一些未知的細(xì)胞狀態(tài)、疾病的亞型以及一些能識(shí)別這些樣本狀態(tài)的基因,或者說發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機(jī)制的基因。歸類(分類)歸類(分類):基于已有知識(shí),并有改進(jìn)現(xiàn)有知識(shí)的潛力,通過訓(xùn)練分類器來辨識(shí)與已知細(xì)胞狀態(tài)或疾病亞型相類似的樣本,或者是與已知的共調(diào)控基因表達(dá)相似的基因。 第二節(jié)第二節(jié) 基因芯片聚類分析基因芯片聚類分析 分類分類(classification)(classification)分類(classification)l樣本分類情況已知l分類基因選取l分類準(zhǔn)確性
14、判斷:準(zhǔn)確率,相關(guān)性層級(jí)聚類方法:層級(jí)聚類方法:得到類似于進(jìn)化分析的系統(tǒng)樹圖,具有相似表達(dá)譜的基因彼此得到類似于進(jìn)化分析的系統(tǒng)樹圖,具有相似表達(dá)譜的基因彼此臨近,他們可能具有相似的功能。臨近,他們可能具有相似的功能。其重要思想是:先將其重要思想是:先將n個(gè)樣本看成個(gè)樣本看成n類,計(jì)算類間的距離,再將類,計(jì)算類間的距離,再將相似性最高的兩類合并成為一個(gè)新類,得到相似性最高的兩類合并成為一個(gè)新類,得到n-1類,再重新計(jì)算類,再重新計(jì)算關(guān)系矩陣,不斷重復(fù)這個(gè)過程直至所有的基因融合成為一個(gè)關(guān)系矩陣,不斷重復(fù)這個(gè)過程直至所有的基因融合成為一個(gè)基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (Affymetrix Ge
15、neChip (Affymetrix GeneChip oligonucleotide arrays)oligonucleotide arrays)Gene expression table X:log sam/ref intensitiesX0:gene is overexpressedX0:gene is underexpressed 基因表達(dá)數(shù)據(jù)矩陣基因表達(dá)數(shù)據(jù)矩陣 (glass slides)Gene expression table X:log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed
16、 數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式數(shù)據(jù)形式數(shù)據(jù)形式對(duì)任意一個(gè)基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)基因來說,樣本值是特征值,數(shù)據(jù)的維數(shù)是M對(duì)任意一個(gè)樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是對(duì)任意一個(gè)樣本來說,基因值是特征值,數(shù)據(jù)的維數(shù)是N數(shù)據(jù)矩陣數(shù)據(jù)矩陣, ,基因數(shù)遠(yuǎn)大于樣品數(shù)。基因數(shù)遠(yuǎn)大于樣品數(shù)。聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的聚類時(shí),考查基因間的相似性,從數(shù)學(xué)上講就是看對(duì)應(yīng)的M M維維數(shù)據(jù)之間的相似性。數(shù)據(jù)之間的相似性。Cluster&TreeviewCluster&Treeview軟件軟件Cluster&TreeviewCluster&Treeview軟件軟件G
17、enesis軟件軟件預(yù)分析(預(yù)分析(Pre-Analysis)l重復(fù)值合并(重復(fù)值合并( replicate handling )l數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化(data transformation and standardization)l缺失數(shù)據(jù)處理(缺失數(shù)據(jù)處理( missing value management )l基因篩選(基因篩選(pattern selection)重復(fù)值合并重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,在特定條件下把所有的重復(fù)值合并成一個(gè)數(shù)值可能更為方便,而這一個(gè)值是給定基因而這一個(gè)值是給定基因/條件的代表。條件的代表。通常的合并:計(jì)算
18、這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位通常的合并:計(jì)算這些重復(fù)值的集中趨勢(shì)指標(biāo),如均數(shù)、中位數(shù)或眾數(shù)。但是,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著數(shù)或眾數(shù)。但是,使用一個(gè)集中趨勢(shì)指標(biāo)代替一組數(shù)值意味著信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。信息的丟失,因此數(shù)據(jù)的合并應(yīng)謹(jǐn)慎。 去除奇異值:可以通過計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位去除奇異值:可以通過計(jì)算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差,去除位于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減于給定區(qū)間外的數(shù)據(jù)(如均數(shù)加減3個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩個(gè)標(biāo)準(zhǔn)差外的數(shù)據(jù))。剩余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。余的數(shù)據(jù)重新計(jì)算均數(shù)和標(biāo)準(zhǔn)差,并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合
19、并:重復(fù)值合并:數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化l數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不數(shù)據(jù)變換的目的:在盡量保證原始數(shù)據(jù)特征不變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)變的前提下,使變換后的數(shù)據(jù)更適于進(jìn)行統(tǒng)計(jì)分析。分析。 l對(duì)數(shù)轉(zhuǎn)化(對(duì)數(shù)轉(zhuǎn)化(log-transformationlog-transformation)l中心化處理(中心化處理(centercenter)l單位圓化單位圓化l正態(tài)化(均值為正態(tài)化(均值為0 0,方差為,方差為1 1)缺失數(shù)據(jù)處理缺失數(shù)據(jù)處理l芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕?、點(diǎn)像素強(qiáng)度達(dá)芯片上的某些點(diǎn)可能因?yàn)樾酒娜毕荨Ⅻc(diǎn)像素強(qiáng)度達(dá)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而
20、產(chǎn)生異常的數(shù)據(jù)到飽和、點(diǎn)像素強(qiáng)度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。點(diǎn),在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點(diǎn)刪除。l未觀測(cè)點(diǎn)未觀測(cè)點(diǎn)l若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因若后續(xù)的統(tǒng)計(jì)分析要求數(shù)據(jù)滿足完整性,如特征基因提取的奇異值分解、某些基因的聚類分析方法等,則提取的奇異值分解、某些基因的聚類分析方法等,則需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理需要對(duì)含有缺失值的數(shù)據(jù)進(jìn)行處理 l刪除含有缺失值的整條記錄,這種方法操作簡單,但刪除含有缺失值的整條記錄,這種方法操作簡單,但卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量卻因?yàn)閭€(gè)別值的缺失而刪除整個(gè)記錄,可能丟失大量有價(jià)值的
21、信息有價(jià)值的信息 l填充或修補(bǔ)缺失數(shù)據(jù)填充或修補(bǔ)缺失數(shù)據(jù)缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理l固定值法,比如固定值法,比如0 0或者或者1 1l行平均法行平均法l使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重使用重復(fù)數(shù)據(jù)點(diǎn)對(duì)缺失數(shù)據(jù)進(jìn)行填充。對(duì)于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重,應(yīng)當(dāng)使用盡量同質(zhì)的樣品對(duì)缺失值進(jìn)行估計(jì)。品對(duì)缺失值進(jìn)行估計(jì)。l使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。使用基因間的相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行填充。奇異值分奇異值分解法,解法,KNNKNN法。法。l其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最其他方法,最小二乘法擬合修補(bǔ),方差迭代分析,最大
22、可能性分析大可能性分析 缺失數(shù)據(jù)的處理方法缺失數(shù)據(jù)的處理方法KNN法K最近鄰法(最近鄰法(K-nearest neighborhood method):):假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算含缺失值假定某個(gè)基因在某個(gè)指標(biāo)上含有缺失值,計(jì)算含缺失值的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。與該基因相似性最大的與該基因相似性最大的K個(gè)基因稱為該基因的個(gè)基因稱為該基因的K個(gè)最近個(gè)最近鄰,這鄰,這K個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失個(gè)基因在該指標(biāo)上的數(shù)據(jù)就是估計(jì)該基因缺失數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這數(shù)據(jù)的基礎(chǔ),估計(jì)值可以是這K個(gè)基因在該指標(biāo)上
23、的均個(gè)基因在該指標(biāo)上的均數(shù),也可以是這數(shù),也可以是這K個(gè)基因的加權(quán)均數(shù)。個(gè)基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。在加權(quán)均數(shù)中,權(quán)重為上面計(jì)算的基因間的相似性。K值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。值的確定具有一定的經(jīng)驗(yàn)性,但不宜太大和太小。 基因篩選(基因篩選(gene selection)l在進(jìn)行分析之前,要在進(jìn)行分析之前,要先選擇用來分析的基因先選擇用來分析的基因。芯片中的基。芯片中的基因有上萬條,相應(yīng)的數(shù)據(jù)矩陣也有上萬行時(shí),要預(yù)先進(jìn)行因有上萬條,相應(yīng)的數(shù)據(jù)矩陣也有上萬行時(shí),要預(yù)先進(jìn)行基因的濾取,否則既會(huì)增加運(yùn)算的難度,又會(huì)引入了不必基因的濾取,否則既會(huì)增加
24、運(yùn)算的難度,又會(huì)引入了不必要的基因,更增加了解釋結(jié)果的難度。要的基因,更增加了解釋結(jié)果的難度。l去掉無效基因去掉無效基因,當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無效數(shù)據(jù)個(gè),當(dāng)某條基因在表達(dá)譜數(shù)據(jù)中的無效數(shù)據(jù)個(gè)數(shù)超過一定范圍時(shí),該基因就被認(rèn)為是一條無效基因,在數(shù)超過一定范圍時(shí),該基因就被認(rèn)為是一條無效基因,在聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很聚類分析中不考慮該基因。一條基因表達(dá)譜數(shù)據(jù)的波動(dòng)很小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要小,即數(shù)據(jù)的方差小于一定范圍,意味著這條基因與所要研究的生物過程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉。研究的生物過程或?qū)ο箨P(guān)聯(lián)很小,也可濾掉?;蚝Y選基因篩選針對(duì)特別
25、目的針對(duì)特別目的的基因篩選,的基因篩選,如篩選不同類如篩選不同類之間差異表達(dá)之間差異表達(dá)基因,常用假基因,常用假設(shè)檢驗(yàn)的方法,設(shè)檢驗(yàn)的方法,比如比如t檢驗(yàn)、檢驗(yàn)、F檢驗(yàn)等。檢驗(yàn)等。發(fā)展新算法新算法新角度新角度合并多種方法合并多種方法第三節(jié)第三節(jié) 主成分分析主成分分析(Principle Component Analysis,PCA) 不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu),去除數(shù)據(jù)的冗余性,常用主成分分析法。余性,常用主成分分析法。降維概述降維概述降維:指將樣降維:指將樣本從輸入空間本從輸入空間通過線性或非通過線性或非線性映射到一線性映射到一個(gè)低維空間。個(gè)低維空
26、間。降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無用信降維:將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù),減少了無用信息和冗余信息,減少了后續(xù)的計(jì)算量。當(dāng)降至三維以下時(shí),可息和冗余信息,減少了后續(xù)的計(jì)算量。當(dāng)降至三維以下時(shí),可以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)以使用可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。主成分分析(PCA,principal component analysis) l對(duì)于一組原始隨機(jī)變量為對(duì)于一組原始隨機(jī)變量為X X1 1,X,Xp p,尋找一個(gè)新的變量,尋找一個(gè)新的變量Z Z
27、1 1,這,這個(gè)新的變量是原始變量的線性組合,個(gè)新的變量是原始變量的線性組合,Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a+ap1p1X Xp p,并使得并使得Z Z1 1的變異最大化的變異最大化lZ1Z1即為原始變量的最大主成分,它使用一個(gè)變量試圖最大化即為原始變量的最大主成分,它使用一個(gè)變量試圖最大化地包含一組變量的變異。通常一個(gè)變量還不足夠,因此,需地包含一組變量的變異。通常一個(gè)變量還不足夠,因此,需要尋找第二個(gè)主成分要尋找第二個(gè)主成分Z2Z2,Z2Z2與與Z1Z1不相關(guān),且是除不相關(guān),且是除Z1Z1外具有最外具有最大方差的原始變量的線性組合。大方差的原始變量的線性組合。主成分分析主成分分析本章小結(jié)本章小結(jié):l確定兩個(gè)基因表達(dá)是否有差異,需要確定一個(gè)閾值,確定兩個(gè)基因表達(dá)是否有差異,需要確定一個(gè)閾值,超過這個(gè)值,兩個(gè)基因表達(dá)就有差異。閾值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 西安郵電大學(xué)《美術(shù)鑒賞與批評(píng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江理工大學(xué)《木材工業(yè)自動(dòng)化》2023-2024學(xué)年第二學(xué)期期末試卷
- 南昌大學(xué)共青學(xué)院《免疫學(xué)與病原生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 撫順師范高等專科學(xué)?!镀放菩蜗髮m?xiàng)設(shè)計(jì)一》2023-2024學(xué)年第二學(xué)期期末試卷
- 證券從業(yè)資格證券投資顧問勝任能力考試證券投資顧問業(yè)務(wù)真題1
- 山東勞動(dòng)職業(yè)技術(shù)學(xué)院《智能車輛環(huán)境感知技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025遼寧省安全員B證(項(xiàng)目經(jīng)理)考試題庫
- 湖南冶金職業(yè)技術(shù)學(xué)院《企業(yè)生產(chǎn)與技術(shù)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年陜西省建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫
- 湖南電氣職業(yè)技術(shù)學(xué)院《面向數(shù)據(jù)科學(xué)的語言》2023-2024學(xué)年第二學(xué)期期末試卷
- 關(guān)于新能源場(chǎng)站“兩個(gè)細(xì)則”的影響和管理措施
- 手術(shù)部位感染預(yù)防控制措施
- 社會(huì)學(xué)概論課件
- 中醫(yī)類診所規(guī)章制度與崗位職責(zé)
- 初中語文 中考總復(fù)習(xí)-文言文斷句訓(xùn)練120題(含答案解析)
- 影視鑒賞-動(dòng)畫電影課件
- 美學(xué)原理全套教學(xué)課件
- 精裝修施工圖深化內(nèi)容及要求
- 《克雷洛夫寓言》閱讀指導(dǎo)課件
- 《無人機(jī)載荷與行業(yè)應(yīng)用》 課件全套 第1-6章 無人機(jī)任務(wù)載荷系統(tǒng)概述- 未來展望與挑戰(zhàn)
- 《室內(nèi)照明設(shè)計(jì)》(熊杰)794-5 教案 第7節(jié) 綠色照明、節(jié)能照明與應(yīng)急照明
評(píng)論
0/150
提交評(píng)論