計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)_第1頁(yè)
計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)_第2頁(yè)
計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)_第3頁(yè)
計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)_第4頁(yè)
計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)在生物學(xué)上的應(yīng)用數(shù)量分類學(xué)第1頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法0問(wèn)題的提出生物分類的定量分類研究分子生物學(xué)中的相似性與相異性研究 一·數(shù)量分類的基本概念:數(shù)量分類方法,分類運(yùn)算單位與分類性狀等二·性狀的選取與量化:性狀選取的原則,性狀編碼,數(shù)據(jù)標(biāo)準(zhǔn)化三·系統(tǒng)聚類分析:相似性系數(shù),系統(tǒng)聚合方法等四·排序分析:主成分分析等第2頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-1一·數(shù)量分類的基本概念(一)數(shù)量分類方法和數(shù)量分類學(xué)英國(guó)微生物學(xué)家P.H.A.Sneath

英國(guó)動(dòng)物與人類學(xué)家A.J.Cain

美國(guó)生物統(tǒng)計(jì)學(xué)家R.R.Sokal1963年Sneath&Sokal”數(shù)量分類學(xué)原理”

1973年Sneath&Sokal”數(shù)量分類學(xué):數(shù)值分類的原理和應(yīng)用”第3頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-2一·數(shù)量分類的基本概念(二)分類運(yùn)算單位與分類性狀分類運(yùn)算單位(operationaltaxonomicunit,OUT)是數(shù)量分類學(xué)中一個(gè)抽象的基本運(yùn)算單位,可以是一個(gè)個(gè)體、種、種群、群落、DNA序列、蛋白質(zhì)的一級(jí)結(jié)構(gòu)等等。分類性狀(character)是作為分類依據(jù)以區(qū)分不同事物的特征或?qū)傩?。OUT在每個(gè)性狀上所呈現(xiàn)出來(lái)的狀況或數(shù)值稱為性狀狀態(tài)(characterstate)。不能再分解的性狀稱為單位性狀(unitcharacter)。第4頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-3一·數(shù)量分類的基本概念(二)分類分析

1、聚類分析運(yùn)用數(shù)學(xué)方法研究OUT(或性狀)之間的親疏程度,以此為依據(jù)將一批OUT(或性狀)聚合為若干OUT組(或性狀組)。常用的方法有聚合法、分裂法、加入法、圖論法、模糊法、動(dòng)態(tài)法。

第5頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-4一·數(shù)量分類的基本概念(二)分類分析

2、排序分析多數(shù)數(shù)量分類問(wèn)題中,性狀之間往往具有一定的相關(guān)性。利用這種相關(guān)性,可用若干綜合指標(biāo)去代替全部性狀。為了使較少的綜合指標(biāo)盡可能全面地反映原來(lái)全部性狀的信息,運(yùn)用數(shù)學(xué)方法對(duì)性狀進(jìn)行壓縮,并在壓縮的空間中對(duì)OTU進(jìn)行排序。這就是排序分析。常見(jiàn)的有主成分分析(principalcomponentsanalysis)和主坐標(biāo)分析(principalcoordinateanalysis).第6頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-5一·數(shù)量分類的基本概念(二)分類分析

3、判別分析所謂判別分析是在已對(duì)若干樣本劃分類群的基礎(chǔ)上,根據(jù)某一OUT的性狀綜合判別它應(yīng)置于哪個(gè)類群之中。常用方法有距離判別(distancediscriminatory)、貝葉斯判別(Bayesdiscriminatory)等。第7頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-6一·數(shù)量分類的基本概念(二)分類分析

4、分類分析和統(tǒng)計(jì)分析的區(qū)別不是隨機(jī)樣本不隨機(jī)取樣第8頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法1-7一·數(shù)量分類的基本概念(二)分類分析

5、數(shù)量分類學(xué)的優(yōu)點(diǎn)(1)具有綜合多種來(lái)源數(shù)據(jù)的能力;(2)大部分分類過(guò)程自動(dòng)化,效能大為提高;(3)以數(shù)值形式編碼,便于電子化管理和交流;(4)因?yàn)榉椒ㄊ嵌康?,故可提供更大示差判別且在劃分類元上更為靈敏;(5)使用更多更好的性狀,改善了常規(guī)分類質(zhì)量;(6)是對(duì)分類學(xué)原理和分類目的的重新審查;(7)其研究結(jié)果導(dǎo)致了若干生物學(xué)概念的重新解釋。第9頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-1二·性狀的選取與量化(一)性狀選取的原則

1、初選性狀應(yīng)盡可能地廣泛采用各方面的信息;

2、復(fù)選時(shí),首先從初選性狀中刪掉無(wú)意義的性狀;

3、刪除不穩(wěn)定和極穩(wěn)定的性狀;

4、對(duì)性狀的相關(guān)性進(jìn)行分析,刪除邏輯相關(guān)性狀和無(wú)意義的經(jīng)驗(yàn)相關(guān)性狀;

5、考慮性狀選取的難易程度,及實(shí)驗(yàn)的可重復(fù)性。從生物學(xué)的觀察記錄直接得到的性狀稱為基本性狀(fundamentalcharacter),從基本性狀利用數(shù)學(xué)方法間接得到的性狀稱為導(dǎo)出性狀(inducedcharacter)。第10頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-2二·性狀的選取與量化(二)性狀編碼

1、編碼類型

1)二態(tài)性狀

2)定量多態(tài)性狀(連續(xù)性狀)

3)定性多態(tài)性狀(1)有序多態(tài)性狀(2)無(wú)序多態(tài)性狀

a、轉(zhuǎn)化為有序多態(tài)性狀

b、分解成二態(tài)性狀第11頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-1二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)m個(gè)OUT的n個(gè)性狀全部編碼賦值后,可以排列成如下矩陣:

x11x12…x1nx21x22…x2nX={xij}m*n=OTUi…………

xm1xm2…xmnX稱為原始數(shù)據(jù)距陣;行向量分別是同一OUT中不同性狀的編碼值;列向量分別是不同OUT中同一性狀狀態(tài)的編碼值。

第12頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-2二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化因?yàn)樵紨?shù)據(jù)來(lái)源不同,代表的意義不同,所以度量的標(biāo)準(zhǔn)也不同。其差異導(dǎo)致量綱大的掩蓋量綱小的。所以必須對(duì)性狀進(jìn)行重新標(biāo)度,即對(duì)原始數(shù)據(jù)距陣進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化的主要方法有7種:

1、總和標(biāo)準(zhǔn)化公式:yij=xij/∑xij

每列元素之和分別除該列元素性質(zhì):∑yij=10<=yij<=1第13頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-3二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化

2、最大值標(biāo)準(zhǔn)化公式:yij=xij/MAXxij

用每列最大值分別除該列元素性質(zhì):MAXyij=10<=yij<=13、極差標(biāo)準(zhǔn)化公式:yij=(xij–MINxij)

/(MAXxij–MINxij)

用每列的極差除該列元素與最小值之差性質(zhì):MAXyij=10<=yij<=1第14頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-4二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化

4、模標(biāo)準(zhǔn)化公式:yij=xij/√∑xij2

用列向量的模(每列元素平方和的平方根)除該列元素性質(zhì):∑yij2=10<=yij<=15、中心化公式:yij=xij–(∑xij)/m

用每列元素減去列向量的形心(均值)性質(zhì):∑yij=0第15頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-5二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化

6、離差標(biāo)準(zhǔn)化公式:yij=(xij–(∑xij)/m

)/(√∑(xij–(∑xij)/m

))2

用每列元素的離差除該列元素的中心化值性質(zhì):∑yij=0∑yij2=17、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化公式:yij=√(m-1)(xij–(∑xij)/m

)/

(√∑(xij–(∑xij)/m

))2

用每列元素的標(biāo)準(zhǔn)差除該列元素的中心化值性質(zhì):∑yij=0Y中每列元素的方差為1第16頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-6二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化實(shí)例:

10142130753.211020112232.50011021180111101023420.910033002211.61102300215210021111432.201110210311.8第17頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-7二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化練習(xí):1、總和標(biāo)準(zhǔn)化求x11、x432、最大值標(biāo)準(zhǔn)化求x863、極差標(biāo)準(zhǔn)化求x510

4、模標(biāo)準(zhǔn)化求x11

5、中心化求x136、離差標(biāo)準(zhǔn)化求x11

7、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化求x21

第18頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-8二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化答案:1、0.17、0.25

2、13、0.30434、1/√6=0.415、0.56、0.25/√1.5=0.2047、(0.25/√1.5)*√7=0.5401第19頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法2-3-9二·性狀的選取與量化(三)數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(正則化)距陣:

0.54-0.940.941.700.590.151.89-1.301.381.710.540.94-0.940.10-0.980.15-0.130.59-0.750.79-1.62-0.940.94-0.70-0.981.35-0.13-0.351.59-1.180.540.940.94-1.50-0.20-1.050.881.530.03-1.310.54-0.94-0.940.901.37-1.051.140.59-0.83-0.390.540.94-0.940.101.37-1.051.140.59-1.070.130.54-0.94-0.940.10-0.200.15-0.13-0.350.070.39-1.620.940.94-0.70-0.981.35-0.13-1.30-0.42-0.13

第20頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-1三·系統(tǒng)聚類分析:(一)相似性系數(shù)衡量性狀或者OUT間相似程度的數(shù)學(xué)表達(dá)式稱為相似性系數(shù)。用于數(shù)量分類的相似性系數(shù)種類很多,常見(jiàn)的有幾十種,主要分為兩大類:相似性系數(shù)(狹義)和相異性系數(shù)。本章節(jié)主要介紹距離系數(shù),此外,簡(jiǎn)單介紹相關(guān)系數(shù)和結(jié)合系數(shù)。第21頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-1三·系統(tǒng)聚類分析:(一)相似性系數(shù)

1)距離系數(shù)距離系數(shù)是一種最常見(jiàn)的相異性系數(shù),即系數(shù)數(shù)值越大,被比較的類群間相似性越小。如有兩個(gè)OUT及3個(gè)性狀,可得標(biāo)準(zhǔn)化距陣性狀1性狀2性狀3Y2×3=OTU1y11y12y13OTU2y21y22y23

可在三維性狀空間中標(biāo)出2個(gè)OUT的坐標(biāo),由空間解析幾何,OTU1和OTU2的距離為:

d=√(y11-y21)2+(y12-y22)2+(y13-y23)2第22頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-2三·系統(tǒng)聚類分析:(一)相似性系數(shù)

1)距離系數(shù)

第23頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-3三·系統(tǒng)聚類分析:(一)相似性系數(shù)

1)距離系數(shù)對(duì)于m個(gè)OUT及n個(gè)性狀,距離計(jì)算公式可推廣為:

dij=√(yi1-yj1)2+(yi2-yj2)2+…+(yin-yjn)2

=√∑(yik-yjk)2i,j=1,2,3,…,m。

dij被稱為歐氏距離系數(shù),實(shí)際應(yīng)用中常使用平均歐氏距離系數(shù):

dij=√(∑(yik-yjk)2)/n

練習(xí):計(jì)算D12第24頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-4三·系統(tǒng)聚類分析:(一)相似性系數(shù)

1)距離系數(shù)在數(shù)學(xué)上更廣義的距離系數(shù)為:

dij=(∑|yik-yjk|r)1/ri,j=1,2,3,…,m。

dr(i,j)被稱為Minkowski距離系數(shù)。

r=1時(shí),d1(i,j)被稱為Manhattan度量;

r=2時(shí),d2(i,j)即為歐氏距離。歐氏距離的性質(zhì)有:(1)dii=djj=0

(2)dij=dji第25頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-5三·系統(tǒng)聚類分析:(一)相似性系數(shù)

1)距離系數(shù)由原始數(shù)據(jù)距陣標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后,計(jì)算歐氏平均距離距陣:D={dij}8×8=01.591.661.891.681.811.231.6201.551.231.160.920.771.2201.491.741.851.250.9801.481.301.361.4900.670.891.7401.031.5901.260

D12=1.585第26頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-6三·系統(tǒng)聚類分析:(一)相似性系數(shù)

2)相關(guān)系數(shù)相關(guān)系數(shù)是樣本相似性的一種重要的測(cè)度。對(duì)于標(biāo)準(zhǔn)化數(shù)據(jù)距陣Y={yij}m×n

第27頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-7三·系統(tǒng)聚類分析:(一)相似性系數(shù)

2)相關(guān)系數(shù)夾角余弦第28頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-8三·系統(tǒng)聚類分析:(一)相似性系數(shù)

2)相關(guān)系數(shù)夾角余弦

第29頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-9三·系統(tǒng)聚類分析:(一)相似性系數(shù)

2)相關(guān)系數(shù)夾角余弦

第30頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-10三·系統(tǒng)聚類分析:(一)相似性系數(shù)

3)結(jié)合系數(shù)在一些數(shù)量分類工作中,二態(tài)性狀常常占主導(dǎo)地位,如生理學(xué)(某種生理現(xiàn)象的有無(wú))、生物化學(xué)(同功酶酶帶的有無(wú))、分子生物學(xué)(堿基或氨基酸殘基的有無(wú))的結(jié)果作分類性狀時(shí)。由于二態(tài)性狀的狀態(tài)屬形式編碼,所以O(shè)TU間間性狀狀態(tài)相同或不同的數(shù)目比狀態(tài)本身更有意義。此外,二態(tài)性狀不必進(jìn)行標(biāo)準(zhǔn)化處理,因?yàn)樗鼈兙鶡o(wú)量綱且變化幅度為1。將OTUi和OTUj的n個(gè)性狀進(jìn)行比較,可得如下結(jié)果。第31頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-11三·系統(tǒng)聚類分析:(一)相似性系數(shù)

3)結(jié)合系數(shù)二態(tài)性狀狀態(tài)匹配數(shù)目

OTUi10OTUj1ab0cd

上表中,a表示2個(gè)OUT狀態(tài)都為1的性狀個(gè)數(shù),稱為正匹配;b和c表示2個(gè)OUT的狀態(tài)分別為0和1時(shí)的性狀個(gè)數(shù),稱為錯(cuò)配;d表示2個(gè)性狀都為0的性狀個(gè)數(shù),稱為負(fù)匹配??偤蚢+b+c+d=n(性狀數(shù))。第32頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-12三·系統(tǒng)聚類分析:(一)相似性系數(shù)

3)結(jié)合系數(shù)結(jié)合系數(shù)是四個(gè)匹配數(shù)目的函數(shù),目前已研究的有幾十種,常用的有24種,最常用的是單匹配系數(shù)SSM。SSM=(a+d)/(a+b+c+d)

24種結(jié)合系數(shù)可分為6種類型:(1)相似結(jié)合系數(shù),取值范圍[0,1]

(2)相似相關(guān)系數(shù),取值范圍[-1,1](3)相似無(wú)限結(jié)合系數(shù),取值范圍[0,∞]

(4)相異結(jié)合系數(shù),取值范圍[0,1]

(5)相異相關(guān)系數(shù),取值范圍[-1,1]

(6)相異無(wú)限結(jié)合系數(shù),取值范圍[0,∞]第33頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-13三·系統(tǒng)聚類分析:(一)相似性系數(shù)

3)結(jié)合系數(shù)實(shí)例:一個(gè)分類群含8個(gè)OUT,20個(gè)性狀。X={xij}8*201100101110111001101111100101011000110010010111010010000111011010100011011110100111010010100101010111111100001001011100101101010000100001111101111010000000010100

練習(xí):計(jì)算SSM={Sij}8*8

第34頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-14三·系統(tǒng)聚類分析:(一)相似性系數(shù)

3)結(jié)合系數(shù)實(shí)例:由X={xij}8*20得到SSM={Sij}8*810.450.550.500.600.450.550.4010.500.350.350.600.600.4510.250.450.300.800.6510.400.550.250.3010.750.650.6010.500.5510.551第35頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-15三·系統(tǒng)聚類分析:(一)相似性系數(shù)

4)Gower一般相似性系數(shù)

Sijk為OTUi和OTUj對(duì)性狀k的積分;ωijk為權(quán)重。第36頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-16三·系統(tǒng)聚類分析:(一)相似性系數(shù)

4)Gower一般相似性系數(shù)當(dāng)狀態(tài)進(jìn)行比較時(shí),ωijk=1;出現(xiàn)NC不比較時(shí),ωijk=0。當(dāng)二態(tài)性狀正負(fù)匹配時(shí),Sijk=1;錯(cuò)配時(shí),Sijk=0。當(dāng)多態(tài)性狀狀態(tài)編碼相同時(shí),Sijk=1;當(dāng)多態(tài)性狀狀態(tài)編碼不同時(shí),Sijk=0。對(duì)于數(shù)量性狀,

Sijk=1-(|xik-xjk|)/(max{xik}-min{xik})可見(jiàn),當(dāng)原始數(shù)據(jù)距陣為二元距陣時(shí),SG系數(shù)等同于SSM系數(shù);當(dāng)原始數(shù)據(jù)距陣為數(shù)量性狀組成的距陣時(shí),SG系數(shù)類似于對(duì)兩個(gè)極差標(biāo)準(zhǔn)化性狀狀態(tài)編碼之差取絕對(duì)值。第37頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-17實(shí)例:10142130753.211020112232.50011021180111101023420.910033002211.61102300215210021111432.201110210311.8

計(jì)算SG(1,2)三·系統(tǒng)聚類分析:(一)相似性系數(shù)

4)Gower一般相似性系數(shù)第38頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-18SG(1,2):即OTU1與OTU2進(jìn)行比較。二態(tài)性狀3個(gè):1個(gè)匹配,2個(gè)錯(cuò)配;多態(tài)性狀5個(gè):1個(gè)相同;數(shù)量性狀2個(gè):a)1-(|75-23|)/(80-15)=0.2b)1-(|3.2-2.5|)/(3.2-0.9)=0.7SG(1,2)=(1+1+0.2+0.7)/10=0.29三·系統(tǒng)聚類分析:(一)相似性系數(shù)

4)Gower一般相似性系數(shù)第39頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-2-19Gower一般相似性系數(shù)距陣:

10.290.300.250.250.160.410.27

10.250.300.460.650.660.4510.240.180.060.390.6910.340.420.340.3410.780.440.1810.450.2710.251三·系統(tǒng)聚類分析:(一)相似性系數(shù)

4)Gower一般相似性系數(shù)第40頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-1三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法根據(jù)相似性系數(shù)對(duì)OUT或性狀進(jìn)行系統(tǒng)聚類是數(shù)量分類分析的核心步驟。其目的在于直觀地反映相似性系數(shù)距陣所包含的全部信息。系統(tǒng)聚合方法的種類較多,但其核心是將兩個(gè)最近的類群(或性狀)聚成一類,換言之,相似性系數(shù)最大或相異性系數(shù)最小聚成一類,這樣得到一個(gè)新類。計(jì)算這個(gè)新類與其余各類的相似性系數(shù),再將最近的兩類合并。如此類推,直至將所有的OTU(或性狀)歸為一類為止。所有結(jié)果可描繪成樹狀的示意圖,稱樹系圖。第41頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-2三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法對(duì)距離系數(shù)、相關(guān)系數(shù)和結(jié)合系數(shù)的聚合方法基本類似,常用的聚合策略有9種。(1)單聯(lián)法(2)全聯(lián)法(3)形心法(4)中線法(5)UPGMA法(6)WPGMA法(7)離差平方和法(8)可變法(9)可變平均法

第42頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-1三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法設(shè)兩個(gè)OUT(OTUp和OTUq)聚合后形成一個(gè)新的OTUr,新的OTUr與未聚合的OTUi間的距離取OTUp和OTUq與OTUi間的距離最小值。即dri=Min{dpi,dqi}

實(shí)例:以平均歐氏距離系數(shù)距陣為例

01.591.661.891.681.811.231.6201.551.231.160.920.771.2201.491.741.851.250.9801.481.301.361.4900.670.891.7401.031.5901.260第43頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-2三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第一步:dij中最小值d5,6=0.67。將OTU5和OTU6合并,組成OTU9,記為OTU9={OTU5,OTU6}。計(jì)算d9,i:01.591.661.891.681.811.231.6201.551.231.160.920.771.2201.491.741.851.250.9801.481.301.361.49

00.67

0.891.740.6701.031.59

0.891.0301.26

1.741.591.260d9,i=1.68,0.92,1.74,1.30,0.89,1.59第44頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-3三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第二步:新距陣中dij中最小值d2,7=0.77。將OTU2和OTU7合并,組成OTU10,記為OTU10={OTU2,OTU7}。計(jì)算d10,i:123478901.591.661.891.231.621.68

01.551.230.771.220.9201.491.250.981.7401.361.491.30

01.260.89

01.590

d10,i=1.23,1.25,1.23,1.22,0.89第45頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-4三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第三步:新距陣中dij中最小值d9,10=0.89。將OTU9和OTU10合并,組成OTU11,記為OTU11={OTU9,OTU10}。計(jì)算d11,i:134891001.661.891.621.681.23

01.490.981.741.2501.491.301.2301.591.22

00.89

0

d11,i=1.23,1.25,1.23,1.22第46頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-5三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第四步:新距陣中dij中最小值d3,8=0.98。將OTU3和OTU8合并,組成OTU12,記為OTU12={OTU3,OTU8}。計(jì)算d12,i:13481101.661.891.621.23

01.490.981.2501.491.23

01.220

d12,i=1.66,1.49,1.22第47頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-6三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第五步:新距陣中dij中最小值d11,12=1.22。將OTU11和OTU12合并,組成OTU13,記為OTU13={OTU11,OTU12}。計(jì)算d13,i:

14111201.891.231.66

01.231.49

01.22

0

d13,i=1.23,1.23第48頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-7三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第六步:新距陣中dij中最小值d4,13=1.23。將OTU4和OTU13合并,組成OTU14,記為OTU14={OTU4,OTU13}。計(jì)算d14,i:

141301.891.2301.230

d14,i=1.23第49頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-8三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法第七步:新距陣中dij中最小值d1,14=1.23。將OTU1和OTU14合并,組成OTU15,記為OTU15={OTU1,OTU14}。

11401.230

第50頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-9三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法經(jīng)過(guò)七步,總的聚合結(jié)果如下:聚合di,i=最小值

OTU9={OTU5,OTU6}d5,6=0.67OTU10={OTU2,OTU7}d2,7=0.76OTU11={OTU9,OTU10}d9,10=0.89OTU12={OTU3,OTU8}d5,8=0.98OTU13={OTU11,OTU12}d11,12=1.22OTU14={OTU4,OTU13}d4,13=1.23OTU15={OTU1,OTU14}d1,14=1.23

第51頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-10三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法結(jié)果樹系圖第52頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-11三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法結(jié)果樹系圖第53頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-3-11三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

1)單聯(lián)法結(jié)果結(jié)合線的劃分第54頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-4-1三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

2)全聯(lián)法設(shè)兩個(gè)OUT(OTUp和OTUq)聚合后形成一個(gè)新的OTUr,新的OTUr與未聚合的OTUi間的距離取OTUp和OTUq與OTUi間的距離最大值。即dri=Max{dpi,dqi}

練習(xí):以平均歐氏距離系數(shù)距陣為例

01.591.661.891.681.811.231.6201.551.231.160.920.771.2201.491.741.851.250.9801.481.301.361.4900.670.891.7401.031.5901.260第55頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-4-2三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

2)全聯(lián)法結(jié)果樹系圖第56頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-4-3三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

2)全聯(lián)法結(jié)果結(jié)合線的劃分第57頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-5-1三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

3)UPGMA法

UPGMA法即不加權(quán)的算術(shù)平均對(duì)群法。設(shè)兩個(gè)已聚合過(guò)的類群OTUp和OTUq分別包含了np和nq個(gè)原始類群,則再聚合后形成一個(gè)新的OTUr,新的OTUr與未聚合的OTUi間的距離按以下公式計(jì)算:

dri2=(np/(np+nq))dpi2+(nq/(np+nq))dqi2

第58頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-5-2三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

3)UPGMA法練習(xí):以結(jié)合系數(shù)距陣為例

10.450.550.500.600.450.550.4010.500.350.350.600.600.4510.250.450.300.800.6510.400.550.250.3010.750.650.6010.500.5510.551第59頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-5-3三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

3)UPGMA法結(jié)合系數(shù)-第一步

10.450.550.500.600.450.550.4010.500.350.350.600.600.45

10.250.450.300.800.6510.400.550.250.3010.750.650.6010.500.55

10.551OTU9={OTU3,OTU7}d912=(1/(1+1))0.552+(1/(1+1))0.552d91=0.55第60頁(yè),共68頁(yè),2023年,2月20日,星期四數(shù)量分類學(xué)原理和方法3-3-5-4三·系統(tǒng)聚類分析:(二)系統(tǒng)聚合方法

3)UPGMA法結(jié)合系數(shù)-第二步

124568910.450.500.600.450.400.5510.350.350.600.450.5510.400.550.300.25

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論