生物數(shù)學(xué)第三章_第1頁
生物數(shù)學(xué)第三章_第2頁
生物數(shù)學(xué)第三章_第3頁
生物數(shù)學(xué)第三章_第4頁
生物數(shù)學(xué)第三章_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章生物分類的數(shù)學(xué)模型本章開始將討論生物分類,按照生物分類學(xué)家的理解就是指表征分類和分支分類,advance\l6我們僅研究?jī)煞N分類概念下的數(shù)學(xué)理論與方法。這里的分類也是多元統(tǒng)計(jì)關(guān)于聚類分析的延續(xù),但是已遠(yuǎn)遠(yuǎn)超出統(tǒng)計(jì)數(shù)學(xué)的范圍。表征分類除經(jīng)典的系統(tǒng)分類以外還包括圖論分類、信息分類、模糊分類;分支分類是以抽象代數(shù)為基礎(chǔ),研究生物演化規(guī)律的分支學(xué)科。因此生物數(shù)學(xué)中的分類數(shù)學(xué)模型不能再視作多元統(tǒng)計(jì)中的聚類分析,而應(yīng)稱為分類分析。本章專門討論分類分析中的表征分類數(shù)學(xué)模型。第一節(jié)分類的基本概念和原始數(shù)據(jù)的獲得何謂分類?有句俗話“物以類聚”,這句話的意思是說,許多事物依據(jù)其類別的特征,相似者歸為同一種類。從這個(gè)意思去理解,分類有兩個(gè)要素。第一個(gè)要素是被分類的對(duì)象,分類對(duì)象是由許多被分類的實(shí)體所組成,3個(gè)以上的實(shí)體構(gòu)成一個(gè)基本分類對(duì)象。被分類的實(shí)體,就是被分類的基本單位,在數(shù)量分類學(xué)中稱為運(yùn)算分類單位(operationaltaxonomicunit)簡(jiǎn)寫作分類單位(OTU)。全部被分類的分類單位構(gòu)成的集合稱為被分類群。分類的第二個(gè)要素是分類的依據(jù),分類依據(jù)取決于被類群中分類單位的性狀,所謂性狀(character)是一個(gè)分類單位區(qū)分于其他分類單位的性質(zhì)、特征或?qū)傩?。一個(gè)分類單位對(duì)某個(gè)性狀所呈現(xiàn)的狀態(tài),稱為該性狀的性狀狀態(tài)(characterstate),簡(jiǎn)稱狀態(tài)(state)。分類就是將被分類群中所有的分類單位,依據(jù)它們的性狀狀態(tài),遵從一定的原則作出劃分或聚合,得到一組新的分類單位集合。通過分類獲得的這個(gè)分類單位集合稱為分類群(taxon)。世界上一切事物都存在分類的問題。專門研究生物物種的分類,也就是生物分類學(xué)中的分類,有表征與分支兩個(gè)對(duì)立的概念。依據(jù)生物表現(xiàn)性狀相似性全面比較而建立的系統(tǒng)分類稱為表征分類(pheneticclassification);遵從生物演化的譜系關(guān)系而建立的系統(tǒng)分類稱為分支分類(cladisticclassification)。這兩個(gè)概念在生物分類學(xué)和數(shù)量分類學(xué)中都很重要,相應(yīng)的也有兩種不同的數(shù)學(xué)方法,本章將要研究表征分類。分類單位隸屬于一個(gè)分類群產(chǎn)生分類單位與分類單位之間的聯(lián)系。如果A是被考慮的一個(gè)分類群,又有分類單位x∈A,且分類單位y∈A,則認(rèn)為x與y之間建立起同屬于一個(gè)分類群的聯(lián)系,稱作分類單x與y共分類群,記作xφy分類學(xué)家在分析比較鑒定被分類對(duì)象時(shí),經(jīng)常要問哪些分類單位屬于同一分類群,advance\l6生物分類工作時(shí)時(shí)刻刻都在考慮共分類群?jiǎn)栴}。顯然共分類群這個(gè)聯(lián)系成為分類學(xué)理論上最基本的概念之一。分類單位共分類群關(guān)系φ具有以下性質(zhì):性質(zhì)1自反性(reflexivity),即xφx;性質(zhì)2對(duì)稱性(symmetry),若xφy,則yφx;性質(zhì)3傳遞性(transitivity),若xφy且yφz,則xφz。共分類群,就分類單位的隸屬性關(guān)系來說,以上3條性質(zhì)是十分必要的,3條性質(zhì)正是數(shù)學(xué)中的所謂等價(jià)關(guān)系(equivalencerelation)。具有等價(jià)關(guān)系的集合,可以依據(jù)等價(jià)關(guān)系將集合分類,得等價(jià)集合類。這是集合論中的一個(gè)重要結(jié)論。數(shù)量分類學(xué)中的定量分類方法正是依靠數(shù)學(xué)中的這個(gè)結(jié)論去解決分類問題。等價(jià)關(guān)系下的等價(jià)集合類成為表征分類方法的理論根據(jù)。下面我們將開始討論在表征分類觀點(diǎn)下的數(shù)量分類方法。當(dāng)被分類群一經(jīng)確定,合適的性狀也被挑選出來,生物學(xué)工作者就要對(duì)調(diào)查、觀察、測(cè)量、實(shí)驗(yàn)得到的數(shù)據(jù)進(jìn)行整理,獲得有關(guān)分類單位和性狀的原始記錄。這些記錄收集了來自各方面的信息,是從事分類工作的第一手資料。原始記錄的形式尚不能直接進(jìn)行數(shù)學(xué)運(yùn)算。為了能夠利用數(shù)學(xué)工具來從事分類學(xué)的研究,必須將所有這些記錄改變成適合于數(shù)學(xué)運(yùn)算的形式。在數(shù)量分類學(xué)中這項(xiàng)工作叫做性狀編碼。性狀編碼的一般方法隨性狀的各種類型分別處理,現(xiàn)敘述如下:1.數(shù)值性狀以整數(shù)或?qū)崝?shù)所表示的性狀稱為數(shù)值性狀(numericalcharacter)。例如生物形態(tài)的各種度量、長(zhǎng)度、面積、體積、角度和重量等;生物組織器官各部分構(gòu)成的數(shù)量;各種實(shí)驗(yàn)數(shù)據(jù);各種儀器測(cè)量的數(shù)據(jù)以及基于上述性狀而獲得的導(dǎo)出性狀。這些都是數(shù)值性狀。數(shù)值性狀本身已經(jīng)是數(shù)值,它是天然的最適合于進(jìn)行數(shù)量分類的性狀,一般分類方法無須編碼處理,就可以轉(zhuǎn)入下一步進(jìn)行數(shù)學(xué)運(yùn)算。需要注意的是有些性狀雖然以數(shù)值表示,但實(shí)質(zhì)上不屬于數(shù)值性狀。2.二元性狀表現(xiàn)為對(duì)立面二種狀態(tài)的性狀稱為二元性狀(binarycharacter)。例如動(dòng)物是脊椎動(dòng)物還是無脊椎動(dòng)物,脊椎動(dòng)物中是胎生還是卵生,冷血還是溫血;有花植物的花冠是合瓣還是離瓣,子房是分離心皮還是合生心皮,果實(shí)開裂與否;在微生物學(xué)中二元性狀尤其多,各種生理、生化、營(yíng)養(yǎng)性狀幾乎都出現(xiàn)二元性狀;生物地理學(xué)的調(diào)查資料中,生物種類在指定區(qū)域內(nèi)的有或無也是二元性狀。二元性狀的編碼很簡(jiǎn)單,將兩個(gè)狀態(tài)分別以“0”和“1”表示,通常肯定的狀態(tài)為1,否定的性狀為0。3.有序多態(tài)性狀表現(xiàn)為三個(gè)狀態(tài)以上,能排列成一定次序,次序具有分類意義的性狀稱為有序多態(tài)性狀(orderedmultistatecharacter)。例如對(duì)器官某部分長(zhǎng)度的描述是短、略長(zhǎng)、長(zhǎng)、極長(zhǎng);植物體表無毛、微具毛、具毛、多毛、密毛;植物地理學(xué)中某植物在某地區(qū)的分布調(diào)查是無、有、較多、極多。有序多態(tài)性狀的狀態(tài)個(gè)數(shù)一般都是有限的,由于是有序的,可以將其排列為一定的等級(jí)。編碼時(shí)可以取連續(xù)排列的非負(fù)整數(shù)0,1,2,3,…,n,它們分別表示n+1個(gè)有序多態(tài)性狀狀態(tài)。例如被毛的性狀可編碼如下:性狀狀態(tài): 無毛 微具毛 具毛 多毛 密毛編碼: 0 1 2 3 4性狀狀態(tài)在不同方向上各自排列為有序的多態(tài)性狀,不能按上面的編碼方法處理。例如關(guān)于被毛的性狀,如果毛有短毛、長(zhǎng)毛,硬毛、柔毛,單一毛、二歧分支毛和多歧星狀毛。這種情形屬于無序多態(tài)性狀,可采取分解的方法編碼。4.無序多態(tài)性狀表現(xiàn)在三個(gè)狀態(tài)以上,不能排列成具有分類意義的一條序列的性狀稱為無序多態(tài)性狀(disorderedmultistatecharacter)。例如種子植物的花序有總狀、頭狀、傘形、傘房、穗狀……;花冠的類型有唇形、蝶形、鐘形、舌形……;昆蟲的口器有咀嚼式、針吸式、虹吸式、舐吸式……;生物分布的地理區(qū)域也是無序多態(tài)性狀。在微觀世界蛋白質(zhì)的氨基酸組成和核酸中的核苷酸構(gòu)成都是無序多態(tài)性狀。無序多態(tài)性狀的編碼比較復(fù)雜,有以下三種方法,敘述如下:4.1分解法分解法就是將原性狀分成多個(gè)新性狀,再進(jìn)行編碼。有時(shí)候無序多態(tài)性狀包含了多種互相獨(dú)立的意義,實(shí)際上這種性狀不符合單位性狀的要求,分解成多個(gè)相應(yīng)的單位性狀是應(yīng)該的。例如植物被毛的種類,有短毛、長(zhǎng)毛、硬毛、軟毛、單一毛、二歧分支毛、多歧星狀毛和腺毛等。這一無序多態(tài)性狀具有多方面的意義,即毛的長(zhǎng)短、毛的硬軟、毛的分枝狀況和毛端是否形成腺狀小點(diǎn)。據(jù)此,該性狀可以分解為4個(gè)性狀,分別編碼如下:毛的長(zhǎng)短性,二元性狀。短,0;長(zhǎng),1。毛的質(zhì)地,二元性狀。軟,0;硬,1。毛的分枝程度,有序多態(tài)性狀。單一毛,0;二歧分枝毛,1;星狀毛,2。毛端是否具腺狀點(diǎn),二元性狀。非腺毛,0;腺毛,1。4.2綜合評(píng)分法這種方法正好像競(jìng)技比賽的記分一樣,容易為一般讀者所理解。為了盡可能避免主觀性,必須在編碼之前先確定評(píng)分的標(biāo)準(zhǔn),規(guī)定合適的綜合計(jì)算方法,并且要求評(píng)分者深明性狀的分類學(xué)意義。具體方法隨性狀的要求而異,現(xiàn)舉例說明。例1豬品種的分類研究中,豬耳的形態(tài)學(xué)性狀在育種學(xué)和生態(tài)學(xué)方面具有重要意義。采取綜合評(píng)分法編碼,將該性狀納入豬品種的定量分類研究中。根據(jù)豬耳的形態(tài)學(xué)特征及其生物學(xué)意義,先確定耳的大小和下垂程度是評(píng)分的兩個(gè)主要依據(jù),再規(guī)定評(píng)分標(biāo)準(zhǔn):耳大小:耳小,0;一般,1;耳大,2;特大,3;特大遮眼,4。耳下垂:耳直立,0;耳平伸,1;耳下垂,2。從這兩個(gè)方面評(píng)出分?jǐn)?shù),再將兩分?jǐn)?shù)相加得綜合評(píng)分編碼。譬如焦溪豬,耳特大遮眼、下垂,評(píng)分編碼值6=4+2。例2小麥抗銹性是小麥育種學(xué)重要特征,根據(jù)已有的記錄將抗銹性分為五個(gè)評(píng)分等級(jí)。發(fā)病特別嚴(yán)重、孢子堆大而普遍,0;有較大孢子堆、發(fā)病較普遍,1;有較小孢子堆、發(fā)病較輕,2;有抗性斑點(diǎn),3;從未見發(fā)病,4。小麥的抗銹性又有抗條銹、抗桿銹和抗葉銹三種不同的區(qū)別。小麥的育種工作抗條銹品種容易獲得,抗稈銹品種較少不易獲得,抗葉銹品種很難得到。因此,對(duì)三種不同的抗銹性分別給予不同的權(quán)重系數(shù),0.091(抗條銹)、0.435(抗稈銹)、0.474(抗葉銹)。譬如小麥“農(nóng)大16”品種,對(duì)條、稈、葉的抗銹性等級(jí)評(píng)分分別是4、1、2。該小麥總的綜合評(píng)分編碼為(0.091×4+0.435+0.474×2)=1.7474.3演化分析法生物分類的某些無序多態(tài)性狀,性狀自身呈現(xiàn)出樹狀的演化過程,可畫出其演化關(guān)系——樹(tree)。樹是圖的一種,這里涉及圖論的一些基本概念??紤]到演化的特點(diǎn),有向樹圖中連接兩頂點(diǎn)之間的弧是有方向的,于是圖中存在一個(gè)頂點(diǎn),可以它為起點(diǎn)連通到所有其他狀態(tài)頂點(diǎn),稱為演化起源,而且這樣頂點(diǎn)只有一個(gè)。除代表演化起源的頂點(diǎn)外,一個(gè)頂點(diǎn),沒有一條弧以它為起點(diǎn),稱為演化終點(diǎn)。每一個(gè)演化終點(diǎn)代表一個(gè)演化方向,把這個(gè)演化方向定為新的性狀。新性狀的編碼規(guī)定如下,演化起源的頂點(diǎn)編碼為0。連接起源頂點(diǎn)到該性狀的演化終點(diǎn)的通路稱為主通路。從起源頂點(diǎn)開始沿主通路,每經(jīng)過一條邊增加一個(gè)單位編碼值,于是主通路上所有頂點(diǎn)的狀態(tài)都賦給編碼值,演化終點(diǎn)狀態(tài)達(dá)到該性狀編碼的最大值。非主通路上頂點(diǎn)狀態(tài)的編碼值這樣規(guī)定:取出從起源頂點(diǎn)到該頂點(diǎn)的通路,該通路經(jīng)過主通路的邊數(shù)是其狀態(tài)編碼值。這樣一來,所有的狀態(tài)都賦給了新性狀的編碼值。對(duì)每一個(gè)演化終點(diǎn)照前述方法對(duì)所有狀態(tài)賦給一個(gè)新性狀編碼值,編碼工作完成。舉一個(gè)例子。如果在某植物分類研究中,采用花序性狀,出現(xiàn)的性狀狀態(tài)有復(fù)穗狀花序、穗狀花序、總狀花序、圓錐花序和傘房花序,無疑這個(gè)性狀屬于無序多態(tài)?;ㄐ虻难莼瘜?shí)際過程比較復(fù)雜,這里假如按圖3-1的方式展開,圖中單生葉腋花序是假設(shè)狀態(tài),也是樹圖的演化起源。該樹圖有3個(gè)演化終點(diǎn)狀態(tài),分別是復(fù)穗狀花序、傘房花序和圓錐花序。3個(gè)演化終點(diǎn)狀態(tài)確定3個(gè)新的性狀,分別記作性狀I(lǐng)、II和III,新性狀的編碼列于圖3-1的表中。性狀狀態(tài)新性狀編碼IIIIII總狀花序011穗狀花序100復(fù)穗狀花序200圓錐花序012傘房花序021圖3-1部分花序的演化分析編碼起源狀態(tài)是單生葉腋花序,所有性狀的編碼均為0。性狀I(lǐng)的主通路單生葉腋花序→穗狀花序→復(fù)穗狀花序;性狀I(lǐng)I的主通路單生葉腋花序→總狀花序→傘房花序;性狀I(lǐng)II的主通路單生葉腋花序→總狀花序→圓錐花序。按照前述編碼規(guī)定,性狀I(lǐng)中穗狀花序和復(fù)穗狀花序的編碼分別為1和2;總狀花序、圓錐花序和傘房花序,因?yàn)閺钠鹪礌顟B(tài)到它們的路徑不經(jīng)過主通路,故編碼值均為0。性狀I(lǐng)I中總狀花序和傘房花序的編碼分別為1和2;從起源狀態(tài)到圓錐花序的通路有一條邊通過主通路,故圓錐花序在性狀I(lǐng)I的編碼值為1;從起源狀態(tài)到穗狀花序和復(fù)穗狀花序的通路不經(jīng)過主通路,故穗狀花序和復(fù)穗狀花序在性狀I(lǐng)I的編碼為0。同理可作性狀I(lǐng)II的編碼,不再贅述。其實(shí),演化分析的編碼方法也是性狀分解法,它的分解是依據(jù)性狀的演化關(guān)系。因此,演化分析方法能更好地反映生物演化譜系,對(duì)生物分類系統(tǒng)學(xué)的研究具有重要價(jià)值,在分支分類部分還要詳細(xì)討論。無序多態(tài)性狀的編碼方法介紹到此。經(jīng)過編碼以后的原始數(shù)據(jù),如果有t個(gè)分類單位,n個(gè)性狀,數(shù)據(jù)可列成表格記錄如下:性狀12…n分類單位1…(3.1)2………t…其中分類單位和性狀都以整數(shù)編號(hào)表示。第i個(gè)分類單位,第j個(gè)性狀狀態(tài)的數(shù)據(jù)是yij(i=1,2,…,t;j=1,2,…,n)。第二節(jié)數(shù)據(jù)變換和數(shù)據(jù)標(biāo)準(zhǔn)化前一節(jié)討論了性狀的編碼,經(jīng)過編碼所獲得的原始數(shù)據(jù)如果都是二元數(shù)據(jù),沒有特殊需要可以直接進(jìn)行相似性系數(shù)運(yùn)算;如果數(shù)據(jù)是一般的實(shí)數(shù),就必須先進(jìn)行數(shù)據(jù)的變換和標(biāo)準(zhǔn)化,然后才能進(jìn)行相似系數(shù)運(yùn)算。生物世界種類萬千,變化多端,對(duì)生命現(xiàn)象的描述和記錄十分復(fù)雜,數(shù)據(jù)的來源不同,量綱不同,某些來自專門技術(shù)和特殊實(shí)驗(yàn)的數(shù)據(jù)度量標(biāo)準(zhǔn)更復(fù)雜。數(shù)據(jù)的復(fù)雜性最后反映在數(shù)值的大小和變化的幅度因不同的性狀而各不相同。性狀之間的這種差異僅僅是由于性狀各自的特點(diǎn)和度量標(biāo)準(zhǔn)不同而產(chǎn)生的。這種差異影響分類的結(jié)果,有時(shí)候甚至大到把具有分類意義的變化完全掩蓋下去,使得分類運(yùn)算看不到有意義的結(jié)果。因此在進(jìn)行大規(guī)模運(yùn)算之前,需要先進(jìn)行變換或標(biāo)準(zhǔn)化處理,以便減少和消除這種差異帶來的影響。對(duì)原始性狀數(shù)據(jù)進(jìn)行變換的方法就是將需要變換的數(shù)據(jù)代入一個(gè)事先擬好的函數(shù)中,進(jìn)行計(jì)算,得出一組新的數(shù)值代替原來的性狀數(shù)據(jù)。如果某一性狀有t個(gè)分類單位,數(shù)據(jù)x1,x2,…,xt進(jìn)行變換的一般形式是:……這里(i=1,2,…,t)表示變換后的數(shù)據(jù),fi(x1,x2,…,xt)(i=1,2,…,t)是原始性狀數(shù)據(jù)的函數(shù),稱為該變換的變換函數(shù)。最簡(jiǎn)單的變換是數(shù)據(jù)自身減去某一常數(shù): (3.2)這個(gè)變換的效果是把度量的基準(zhǔn)點(diǎn)做一次平移,有時(shí)把常數(shù)c改換成該性狀數(shù)據(jù)的平均值,這樣的變換稱為中心化(centralization)。另一個(gè)簡(jiǎn)單的變換是數(shù)據(jù)自身乘以非零常數(shù)c, (3.3)這個(gè)變換可以使性狀數(shù)據(jù)均勻地放大(c>1)或者縮小(c<1)。還有一個(gè)基本的變換是m次冪乘方,變換函數(shù)是 (3.4)其中m是非零整數(shù)。如果不是整數(shù)也可以表示開方運(yùn)算。前面提到的三種變換是性狀數(shù)據(jù)自身最基本的代數(shù)變換,部分復(fù)雜的變換都可以通過有限次這種變換的組合來實(shí)現(xiàn)。除基本的代數(shù)變換以外,還有一些特殊函數(shù)的變換。數(shù)學(xué)中任何一個(gè)函數(shù)都可以當(dāng)作變換函數(shù),常見的變換函數(shù)有三角函數(shù)與反三角函數(shù)、指數(shù)函數(shù)、對(duì)數(shù)函數(shù)等,例如:前面所討論的變換都是個(gè)別性狀對(duì)其自身的變換。為了消除性狀之間數(shù)值的大小和變化幅度的差異,常常對(duì)所有的性狀采取統(tǒng)一的變換,這種變換稱為標(biāo)準(zhǔn)化變換(standardizedtransformation)。對(duì)原始數(shù)據(jù)進(jìn)行這種變換的運(yùn)算過程稱為原始數(shù)據(jù)的標(biāo)準(zhǔn)化(standardizationoforiginaldata)。在主成分分析和許多相似性系數(shù)的運(yùn)算中,原始數(shù)據(jù)的標(biāo)準(zhǔn)化已成為必不可少的步驟,我們?cè)谶@一節(jié)里詳細(xì)討論。經(jīng)過性狀編碼以后獲得的原始數(shù)據(jù)可以看作一個(gè)t行n列的矩陣,稱為原始數(shù)值矩陣(originaldatamatrix): (3.5)矩陣中的行向量[yi1yi2…yin](i=1,2,…,t)稱為第i個(gè)分類單位向量(vectorofoperationaltaxonomicunit);列向量[y1jy2j…ytj](j=1,2,…,n)稱為第j個(gè)性狀向量(vectorofcharater).最簡(jiǎn)單的標(biāo)準(zhǔn)化變換稱為極差標(biāo)準(zhǔn)化變換。如果經(jīng)標(biāo)準(zhǔn)化變換以后的數(shù)據(jù)記作xij,極差標(biāo)準(zhǔn)化變換的數(shù)學(xué)公式如下: (3.6)其中表示第j個(gè)性狀數(shù)據(jù)y1j,y2j,…,ytj的最大值;為相應(yīng)的最小值。公式中的分母代表第j性狀極大狀態(tài)值和極小狀態(tài)值之間的差異。極差標(biāo)準(zhǔn)化的名稱由此而得。不難看出,經(jīng)極差標(biāo)準(zhǔn)化變換之后的數(shù)據(jù)xij介于0到1之間(0≤xij≤1),性狀之間數(shù)據(jù)大小和變化幅度不具有分類意義的差異已經(jīng)消除。極差標(biāo)準(zhǔn)化變換雖然計(jì)算簡(jiǎn)單,但這種變換設(shè)計(jì)十分粗糙,特別當(dāng)個(gè)別數(shù)據(jù)遠(yuǎn)離其他數(shù)據(jù)時(shí),較大的極差使變換后的數(shù)據(jù)取值不甚合理。下面介紹一種基于統(tǒng)計(jì)運(yùn)算的標(biāo)準(zhǔn)化變換,這種變換比較合理,已成為數(shù)量分類運(yùn)算常規(guī)的運(yùn)算過程。以至以后再述及標(biāo)準(zhǔn)化時(shí),除非特別說明,一般都指這種基于統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn)化方法。其變換公式表示如下: (3.7)其中 (3.8) (3.9)和sj分別是第j性狀數(shù)據(jù)的平均值(mean)和標(biāo)準(zhǔn)差(standarddeviation)。怎樣理解上述標(biāo)準(zhǔn)化變換的意義呢?如果我們把每個(gè)性狀的數(shù)據(jù)都看作是平均值為,標(biāo)準(zhǔn)差為sj的正態(tài)分布隨機(jī)變量。所謂標(biāo)準(zhǔn)正態(tài)分布就是平均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。不難驗(yàn)證變換以后每一個(gè)性狀的數(shù)據(jù)組x1j,x2j,…,xtj其平均值為0,標(biāo)準(zhǔn)差為1。變換之前,每一個(gè)性狀各有自己的平均值和標(biāo)準(zhǔn)差;變換之后,所有的性狀都服從標(biāo)準(zhǔn)正態(tài)分布,因而性狀之間因數(shù)值大小和變化幅度不同而產(chǎn)生的不具有分類意義的差異就不復(fù)存在了。也可以從另一個(gè)角度理解標(biāo)準(zhǔn)化的意義。變換以后的第j個(gè)性狀向量以大寫字母Xj表示,有趣的是,變換后性狀向量的模都相同,并且有等式 (3.10)其中Xj=[x1j,x2j,…,xtj]向量的模可以理解為向量的長(zhǎng)度。經(jīng)過標(biāo)準(zhǔn)化變換,性狀向量長(zhǎng)度都一致,說明因性狀之間大小和變化幅度的不同而產(chǎn)生的不具有分類意義的差異已經(jīng)消除。原始數(shù)值矩陣(3.5)經(jīng)過標(biāo)準(zhǔn)化變換之后獲得已標(biāo)準(zhǔn)化原始數(shù)值矩陣 (3.11)該矩陣仍然與原始數(shù)值矩陣一樣,t行代表分類單位,n列代表性狀。矩陣在標(biāo)準(zhǔn)化過程中排除了不具有分類意義的數(shù)量關(guān)系,因而能正確地反映分類單位之間的相親性。以后的分類運(yùn)算分析將在這個(gè)矩陣上進(jìn)行。本書為了說明數(shù)量分類每一步的具體運(yùn)算方法,選取植物桔???Campanulaceae)中的部分種(6個(gè)種,8個(gè)形態(tài)學(xué)性狀)和五加科人參屬(Panax)部分種(7個(gè)種,13個(gè)性狀)作為具體例子。此兩例經(jīng)過性狀編碼獲得的原始數(shù)據(jù)將在以后各章中多次采用。取用時(shí),對(duì)數(shù)據(jù)的來源每次不再作具體介紹。為了使舉例簡(jiǎn)單易算,盡量把數(shù)據(jù)的規(guī)??s小,當(dāng)然,在實(shí)際工作中,分類單位和性狀的個(gè)數(shù)都遠(yuǎn)比此例多,不會(huì)如此簡(jiǎn)單。舉例的桔???個(gè)種,學(xué)名和種的形態(tài)描述如下:黨參[Codonopsispilosula(French.)Nannf.]多年生草本。莖纏繞附它物而蔓生,莖長(zhǎng)約3~10米。葉對(duì)生,有長(zhǎng)柄,卵圓形,葉全緣或具波狀邊緣?;▎紊敾蛏~腋;萼片5,寬披針形;花冠鐘狀,淺綠色,5淺裂;雄蕊5;柱頭3~5裂;子房下位,3~5室。蒴果圓錐形,成熟時(shí)頂部萼片間室背開裂。種子長(zhǎng)橢圓形、褐色、無翼。桔梗[Platycodongrandiflorus(Jacq.)A.DC.]多年生直立草本,株高60厘米。葉互生,有時(shí)對(duì)生或輪生;葉無柄或短柄;葉緣有銳鋸齒?;▎紊驍?shù)朵生枝頂;萼5裂;花冠闊鐘狀,藍(lán)紫色,5裂,花徑4~5厘米;雄蕊5;子房下位,5室,柱頭5裂。蒴果倒卵形,成熟時(shí)頂部瓣裂;種子扁平、無翼。輪葉沙參[Adenophorapereskiifolia(Fisch.exRoem.etSchult.)G.Don.]多年生直立草本,株高50厘米。莖生葉3~4葉輪生;葉卵圓狀披針形;葉緣有銳粗鋸齒。圓錐花序或總狀花序;萼片5、披針形;花冠鐘形、藍(lán)紫色,花盤短筒狀;花柱長(zhǎng),伸出花冠外,柱頭膨大、3瓣裂;子房下位、3室,果沿側(cè)壁開裂;種子卵圓形、無翼。薺苨[Adenophoraremotiflora(Sieb.etZucc.)Miq.]多年生直立草本,株高70厘米。上部莖生葉互生、有柄、卵形、長(zhǎng)橢圓狀卵形至廣披針形;葉緣有銳重鋸齒??偁罨ㄐ蚧蚴鑸A錐花序;花冠寬鐘形、白色或淡青色;花柱伸出花冠外;柱頭3淺裂;子房下位,3室;花盤短筒狀。蒴果側(cè)壁開裂;種子卵形、無翼。羊乳[Codonopsislanceolata(Sieb.etZucc.)Trautv.]多年生草本,莖纏繞,長(zhǎng)2~3米。葉有短柄、對(duì)生,葉狹卵形,葉全緣,或微具波狀疏齒?;▎紊换ü阽姞?、5淺裂,淡綠色,內(nèi)面具有紫褐色斑;雄蕊5,柱頭3~5;子房3~5。果短圓錐形,頂部萼片間室背開裂;種子淡褐色、卵圓形、扁而具翼。石沙參(AdenophorapolyanthaNakai)多年生直立草本,高65厘米左右。葉互生、近無柄,葉橢圓狀披針形,葉緣具粗鋸齒。圓錐花序或總狀花序;萼片線狀披針形;花冠鐘形,邊緣裂片外翻卷,花藍(lán)紫色;花柱略伸出花冠外;子房3室。蒴果側(cè)壁開裂;種子無翼。選取8個(gè)性狀,性狀的編碼方法如下:(1)莖是否纏繞,二元性狀。莖纏繞,1;直立,0。(2)株高,數(shù)值性狀。取株高或莖的長(zhǎng)度(米)(3)葉的著生方式,有序多態(tài)性狀。葉互生,0;對(duì)生,1;輪生,2。(4)葉緣,有序多態(tài)性狀。葉全緣或波狀疏齒,0;鋸齒,1;重鋸齒,2。(5)花序,有序多態(tài)性狀。單生花序,或整個(gè)生枝頂,0;總狀花序或疏圓錐花序,1;圓錐花序或總狀花序,2。(6)子房室數(shù),數(shù)值性狀。取子房室數(shù)。(7)果開裂方式,有序多態(tài)性狀。果側(cè)壁開裂,0;果頂部5瓣裂,1;果頂部萼片間室背開裂,2。(8)種子是否具翼,二元性狀。果不具翼,0;具翼,1。對(duì)6個(gè)種的8個(gè)性狀,按照上述原則進(jìn)行編碼,編碼結(jié)果列于表3-1中。標(biāo)準(zhǔn)化數(shù)據(jù)在表3-2中。表3-1桔??圃囼?yàn)數(shù)據(jù)性狀分類單位莖纏繞否1株高2葉序3葉緣4花序5子房室數(shù)6果裂方式7種具翼否81黨參15.51004202桔梗00.6010510續(xù)表3-1性狀分類單位莖纏繞否1株高2葉序3葉緣4花序5子房室數(shù)6果裂方式7種具翼否83輪葉沙參00.52123004薺苨00.70213005羊乳12.51004216石沙參00.65012300表3-2桔??圃囼?yàn)數(shù)據(jù)的標(biāo)準(zhǔn)化性狀分類單位莖纏繞否株高葉序葉緣花序子房室數(shù)果裂方式種具翼否黨參1.29101.88760.4082-1.1070-0.84760.40821.1866-0.4082桔梗-0.6455-0.5734-0.81650.2214-0.84761.63300.1695-0.4082輪葉沙參-0.6455-0.62361.63300.22141.1866-0.8165-0.8476-0.4082薺苨-0.6455-0.5232-0.81651.54980.1695-0.8165-0.8476-0.4082羊乳1.29100.38090.4082-1.1070-0.84760.40821.18662.0412石沙參-0.6455-0.5483-0.81650.22141.1866-0.8165-0.8476-0.4082平均值0.33331.74170.66670.83330.83333.66670.83330.1667標(biāo)準(zhǔn)差0.51641.99110.81650.75280.98320.81650.98320.4082人參屬選取部分種和變種(7個(gè)OTU13個(gè)性狀)的數(shù)據(jù),也作為本書演算的實(shí)例。分類單位的描述如下:人參(PanaxginsengC.A.Meyer)多年生草本,株高50~60厘米。主根圓柱形或紡錘形,肉質(zhì);根狀莖較短,節(jié)距4毫米左右。掌狀復(fù)葉,小葉3~5;中央小葉長(zhǎng)10厘米左右,橢圓形至長(zhǎng)橢圓形,長(zhǎng)8~12厘米,寬3~5厘米;葉緣鋸齒,10齒寬18毫米左右。傘形花序頂生;花小;萼5齒;花瓣5;雄蕊5;花柱2,分離。果成熟時(shí)紅色;種子扁圓形,寬4~5毫米。根部化學(xué)成分人參醇含量高。分布海拔1000米左右。西洋參(PanaxquinquefoliusLinn.)多年生草本,株高30厘米左右。主根圓柱形或紡錘形,肉質(zhì);根狀莖短,節(jié)距3~4毫米。掌狀復(fù)葉,小葉3~5;中央小葉長(zhǎng)7~10厘米,寬5厘米左右,長(zhǎng)倒卵形;葉緣鋸齒10齒寬20毫米左右。傘形花序頂生;花萼5齒;花瓣5;花柱2,分離。果成熟時(shí)紅色。種子扁球形,寬5毫米左右。植物化學(xué)成分人參醇含量高。分布海拔1000米左右。三七(Panaxnotoginseng(Burk.)F.H.Chen)多年生草本,株高30~40厘米,主根圓錐形、肉質(zhì)。根狀莖短,節(jié)距9毫米左右。掌狀復(fù)葉,小葉5~7;中央小葉長(zhǎng)6~10厘米,寬3厘米左右,倒卵狀橢圓形;葉緣鋸齒較寬,10齒寬23毫米左右。傘形花序頂生,花80~100朵;花柱2,合生。果成熟紅色?;瘜W(xué)成分人參醇含量高。分布海拔2000米左右。竹節(jié)參(PanaxjaponicusC.A.Meyervar.japonicus)多年生草本,株高50厘米左右;肉質(zhì)主根較??;根狀莖竹節(jié)狀,節(jié)距5~8毫米,差異較??;掌狀復(fù)葉,小葉常5枚,中央小葉闊橢圓形,長(zhǎng)8~9厘米,寬3~5厘米;葉緣細(xì)鋸齒,10齒寬20毫米左右;傘形花序;花柱2或3,離生;果成熟時(shí)紅色具黑色斑點(diǎn);種子卵球形,寬3毫米左右;植物化學(xué)成分人參醇含量低;分布海拔1000~1500米。羽葉三七[PanaxjaponicusC.A.Meyervar.bipinnatifidus(Seem).C.Y.Wu

etK.M.Feng]多年生草本,株高35~55厘米。主根不呈明顯肉質(zhì);根狀莖較長(zhǎng),節(jié)距3~5厘米;差異較大。掌狀復(fù)葉,小葉5~7;中央小葉長(zhǎng)5~9厘米,寬2~4厘米,二回羽狀深裂,長(zhǎng)橢圓形;葉緣鋸齒細(xì),10齒寬10~20毫米。傘形花序頂生;花?。蛔臃慷?;花柱2,離生。果成熟紅色具黑色點(diǎn);種子較小,寬3毫米左右?;瘜W(xué)成分中人參醇含量較少。分布海拔較高,2000~3000米。狹葉竹節(jié)參[PanaxjaponicusC.A.Meyervar.angustifolius(Burk.)ChengetChu]多年生草本,株高60~100厘米。肉質(zhì)主根不明顯;根狀莖竹節(jié)狀,節(jié)距0.5~1.0厘米。掌狀復(fù)葉,小葉5~7;小葉狹長(zhǎng),長(zhǎng)可達(dá)10~15厘米,寬1~3厘米,披針形或線狀披針形;葉緣鋸齒細(xì)密,10齒寬10~20毫米。傘形花序;花柱2~5,離生。果成熟時(shí)紅色具黑色點(diǎn)。種子較小,卵球形,寬2.5毫米左右。植物化學(xué)成分人參醇含量低。分布海拔1500~2000米左右。珠子參[PanaxjaponicusC.A.Meyervar.marjor(Burk.)C.Y.WuetK.M.Feng]多年生草本,株高50~60厘米。肉質(zhì)主根不明顯;根狀莖串球狀,或前端有短竹鞭狀部分,節(jié)距長(zhǎng)10~30毫米,差異較大。掌狀復(fù)葉,小葉5,小葉較小,中央小葉長(zhǎng)5~8厘米,寬2~3厘米,倒披針形,倒卵狀橢圓形;葉緣鋸齒細(xì)密,10齒寬10~15毫米;傘形花序長(zhǎng);花柱2,離生;果成熟時(shí)紅色具黑色斑點(diǎn);種子卵球形,小,寬2~3毫米;植物化學(xué)成分人參醇含量低;分布于海拔較高的林下,2500~3000米。選取13個(gè)性狀,性狀編碼如下:(1)根狀莖節(jié)距,數(shù)值性狀。取根狀莖兩相鄰節(jié)間的長(zhǎng)度(毫米)。(2)根狀莖節(jié)距標(biāo)準(zhǔn)差,數(shù)值性狀。根狀莖節(jié)距多次度量數(shù)據(jù),取數(shù)據(jù)的標(biāo)準(zhǔn)差。(3)具有圓錐狀肉質(zhì)根,有序多態(tài)性狀。肉質(zhì)根很小或不明顯,0;肉質(zhì)根明顯紡錘形或圓柱形,1;肉質(zhì)根明顯,圓錐形,2。(4)株高,數(shù)值性狀。地上部分主莖長(zhǎng)度(厘米)。(5)中央小葉長(zhǎng),數(shù)值性狀。中央小葉長(zhǎng)(厘米)。(6)中央小葉長(zhǎng):寬,數(shù)值性狀。中央小葉長(zhǎng)與寬的比值。(7)葉緣10齒寬,數(shù)值性狀。中央小葉葉中部10個(gè)鋸齒的寬(毫米)。(8)柱頭數(shù),數(shù)值性狀?;ㄖ鶖?shù)量多個(gè)觀測(cè)數(shù)的平均值。(9)花柱合生,二元性狀。離生,0;合生,1。(10)成熟果具黑點(diǎn),二元性狀。不具黑點(diǎn),0;具黑色斑點(diǎn),1。(11)種子寬,數(shù)值性狀。種子沿果實(shí)對(duì)稱軸垂直方向的寬度(毫米)。(12)分布海拔、數(shù)值性狀。分布地區(qū)海拔高度記錄的平均值(米)。(13)人參醇含量,有序多態(tài)性狀。植物化學(xué)成分水解后人參二醇與人參三醇數(shù)量的多少,無,0;+,1;++,2;+++,3;++++,4。上述7個(gè)分類單位,13個(gè)性狀,將觀察記錄的數(shù)據(jù)整理后列于表3-3。表3-3人參屬植物分類數(shù)據(jù)性狀分類單位根狀莖節(jié)距節(jié)距標(biāo)準(zhǔn)差圓錐肉質(zhì)根株高中央小葉長(zhǎng)小葉長(zhǎng)比寬葉緣10齒寬柱頭數(shù)花柱合生熟果具黑點(diǎn)種子寬分布海拔人參醇含量1人參3.971.861571.30102.801.9917.692.00004.56100042西洋參3.231.441301.8086.831.6120.432.00004.79110043三七8.883.352314.5077.632.5523.122.00105.80120044竹節(jié)參6.772.580497.1786.762.3020.002.29013.10133925羽葉三七39.7130.830442.8051.002.6613.931.88012.87263626狹葉竹節(jié)參7.352.900695.00109.634.1714.783.63012.63182827珠子參23.7917.890543.9475.882.6813.502.06012.6727062上述人參屬的數(shù)據(jù)不大,作為演算的實(shí)際例子比較合適。它與桔梗科6個(gè)種的實(shí)際例子所不同之處,在于人參屬類群較小,選擇的7個(gè)種已經(jīng)把人參屬絕大多數(shù)種類包括在內(nèi),取用的13個(gè)性狀,把反映該屬主要形態(tài)學(xué)的依據(jù)也納入。因此對(duì)該數(shù)據(jù)的演算具有較大的真實(shí)性。第三節(jié)相似性概念的數(shù)量化親緣關(guān)系(geneticrelationship)是生物學(xué)中一個(gè)十分重要的概念,生物數(shù)學(xué)中的生物分類須要引進(jìn)比親緣關(guān)系更廣泛的概念,即相似性的概念。在闡述分類的基本概念時(shí),已經(jīng)指出分類工作的目標(biāo)是在被分類群集合上建立起一種分類關(guān)系,即滿足等價(jià)性三個(gè)條件的一種關(guān)系。生物分類希望建立的分類關(guān)系能反映分類單位之間的親緣關(guān)系。以分析事物為目的的分類,要求所建立的分類關(guān)系能體現(xiàn)事物之間的本質(zhì)聯(lián)系。在表征生物分類觀點(diǎn)下,兩者的要求可以統(tǒng)一于相似性的概念之中。如果從生物親緣關(guān)系考慮,關(guān)系接近的生物個(gè)體,它們的性狀表現(xiàn)傾向于比較相同,反之,性狀表現(xiàn)較大的差異。在分析事物時(shí),一個(gè)呈現(xiàn)多種特性的事物,如果事物之間表現(xiàn)的差異較小,說明兩個(gè)事物間的聯(lián)系密切,否則聯(lián)系疏遠(yuǎn)。因而我們可以建立一般的相似性概念,即表現(xiàn)性狀差異所決定的,分類單位之間的相似性關(guān)系,稱為相似性(similarity)。兩個(gè)分類單位,性狀表現(xiàn)比較一致,相似性就大;反之相似性就小。相似性的概念比親緣關(guān)系具有更廣泛更抽象的意義,可以用于比較二個(gè)生物個(gè)體,也能用于比較不同的生物類群,在生物學(xué)中有相似性的概念,非生物學(xué)中也能應(yīng)用這個(gè)概念。相似性程度用數(shù)值來表示,該數(shù)值稱為相似性系數(shù)(similaritycoefficient)。相似性系數(shù)的出現(xiàn)是生物分類朝定量方向發(fā)展的重要標(biāo)志。對(duì)它的計(jì)算,至今一直是分類運(yùn)算過程中一個(gè)十分重要的步驟,相似性系數(shù)有以下幾個(gè)主要類型,即距離系數(shù)、相關(guān)系數(shù)、聯(lián)合系數(shù)、信息系數(shù)和模糊系數(shù),前三個(gè)系數(shù)將在本章中論述,其他系數(shù)將連同其相應(yīng)的分類方法,另辟專門章節(jié)進(jìn)行討論。按照數(shù)值的大小與其反映的相似性程度是否一致,可以將相似性系數(shù)分為兩大類,即相異系數(shù)和相親系數(shù):相異系數(shù)(dissimilaritycoefficient)系數(shù)值愈小,表示的相似性程度愈高;反之,值愈大,愈不相似。距離系數(shù)是最常見的相異系數(shù)。相親系數(shù)(similaritycoefficient)系數(shù)值愈大,表示相似性程度愈高;反之,值愈小,愈不相似。這里,相親系數(shù)與相似性系數(shù)英文原詞相同,出現(xiàn)兩個(gè)概念名稱上的混亂。為了使中譯名不再混淆,采用了“相親系數(shù)”這個(gè)名詞,以此與相似性系數(shù)區(qū)別。相關(guān)系數(shù)是最常用的相親系數(shù)。3.1距離系數(shù)在數(shù)量分類學(xué)中,距離系數(shù)有較早的歷史,早在1934年Anderson就已經(jīng)用距離系數(shù)做樺木科的定量分類研究?,F(xiàn)在的許多研究說明,距離系數(shù)對(duì)于分類運(yùn)算有較好的穩(wěn)定性,在距離系數(shù)基礎(chǔ)之上建立起來的分類運(yùn)算,方法很多,比較完整,另外距離系數(shù)也比較直觀,所以直到今天還被定量分析普遍采用,是相似性系數(shù)中比較重要的一種。讓我們從最簡(jiǎn)單的情形開始討論,如果在三個(gè)性狀之下討論二個(gè)分類單位之間的關(guān)系,性狀狀態(tài)數(shù)據(jù)表示如下:性狀123分類單位Ax1x2x3分類單位By1y2y3其中x1,x2,x3,y1,y2和y3分別是兩個(gè)分類單位性狀狀態(tài)的數(shù)值。圖3-2距離系數(shù)的空間表示如果以三個(gè)性狀當(dāng)作坐標(biāo)軸,狀態(tài)數(shù)值分別為相應(yīng)的坐標(biāo),可以將兩個(gè)分類單位分別以三維歐氏空間中的兩個(gè)點(diǎn)A,B來表示(見圖3-2)。怎樣用數(shù)值來描繪它們之間的相似性關(guān)系呢?一個(gè)最簡(jiǎn)單,也是最直觀的方法就是連A與B二點(diǎn)間的直線,量出它們之間的距離dAB,以值dAB表示OTUA與OTUB之間的相似性,值dAB小,A和B兩點(diǎn)相近,說明兩個(gè)分類單位有較大的相似性。相反,若dAB值大,A和B兩點(diǎn)相距較遠(yuǎn),說明兩個(gè)OTU的相似性疏遠(yuǎn)。用幾何學(xué)的距離當(dāng)作相似性系數(shù),來描述相似性關(guān)系是很合適的。距離dAB的值可以通過三個(gè)性狀分量差的平方和進(jìn)行計(jì)算:將前面的結(jié)果推廣到n個(gè)性狀,得到n維坐標(biāo)下的距離系數(shù)(distancecoefficient)。 (3.12)這個(gè)系數(shù)也被稱為歐氏距離系數(shù)(Euclideandistancecoefficient)。如此確立的距離系數(shù)具有以下三個(gè)性質(zhì),這三個(gè)性質(zhì)具有普遍意義,也稱為距離系數(shù)的基本性質(zhì):(1)dAB≥0,當(dāng)且僅當(dāng)A=B時(shí),等式成立。(2)dAB=dBA。(3)dAB≤dAC+dCB,這里C是A和B之外的另一個(gè)任意的分類單位。這三條基本性質(zhì)都不難理解。最后一條性質(zhì)是幾何學(xué)中的三角形不等式,有時(shí)候被改換成其他的形式,如:()dAB≤max{dAC,dCB}這條性質(zhì)比原來的三角不等式要求更強(qiáng),因?yàn)閙ax{dAC,dBC}≤dAC+dBC距離系數(shù)很多,不管如何定義,通常都應(yīng)當(dāng)滿足這三條基本性質(zhì)。它的前兩條性質(zhì)保證了共分類群等價(jià)條件的自反性和對(duì)稱性成立。但是三角不等式不能保證傳遞性的成立。而性質(zhì)()卻能做到這一點(diǎn)。這是因?yàn)槿绻丫嚯x系數(shù)作為共分類群關(guān)系的判別系數(shù),亦即對(duì)于任意do>0如果有dAB≤doOTUAφOTUB由此我們可以從性質(zhì)()導(dǎo)出等價(jià)性的傳遞條件成立。但是絕大多數(shù)的距離系數(shù)不能滿足如此苛刻的要求。這是距離系數(shù)作為相似性系數(shù)的重大缺陷。如果我們需要比較分類單位i和j而建立距離系數(shù),從已標(biāo)準(zhǔn)化原始數(shù)值矩陣(3.11)取出分類單位向量常見的距離系數(shù)計(jì)算公式摘引如下:平均歐氏距離系數(shù)(meanEuclideandistancecoefficient): (3.13)平均絕對(duì)距離系數(shù)(meanabsolutedistancecoefficient): (3.14)Minkowski距離系數(shù): (3.15)其中常數(shù)r>0。這個(gè)系數(shù)常常被化學(xué)分類學(xué)使用,借以比較兩個(gè)薄層層析的差異。因?yàn)楫?dāng)r充分小時(shí)Minkowski系數(shù)對(duì)較小的差異十分敏感,故適用于差異十分微小的OTU之間建立相似性比較。前面兩個(gè)距離系數(shù)(3.13)和(3.14)可以歸于Minkowski距離系數(shù)的特殊情況。當(dāng)r=1時(shí)即平均絕對(duì)距離系數(shù)(3.14),當(dāng)r=2時(shí),即平均歐氏距離系數(shù)(3.13),當(dāng)r→∞時(shí),可以引出Chebyshev距離系數(shù): (3.16)歐氏距離系數(shù)的又一種擴(kuò)展形式是:Mahalanobis距離系數(shù) (3.17)其中mkl(k,l=1,2,…,n)是參數(shù)。這個(gè)表達(dá)式寫成向量與矩陣的乘積形式比較方便,若向量該向量的轉(zhuǎn)置(Xi-Xj)T=[xi1-xj1xi2-xj2…xin-xjn]公式(3.17)可改寫成 (3.18)其中常數(shù)矩陣M=[mkl]n×n。當(dāng)矩陣M是單位矩陣時(shí),即M=E在此E表示單位矩陣,這時(shí),Mahalanobis距離系數(shù)又回到歐氏距離系數(shù)(3.12)的平方。雖然Mahalanobis系數(shù)比歐氏距離系數(shù)更完全,但是該公式要確定n2個(gè)參數(shù),使用很不方便,下面再介紹幾個(gè)其他形式的距離系數(shù)。Canberra距離系數(shù): (3.19)在此要求xij≥0(對(duì)一切可能取到的值)。不然的話,應(yīng)將公式稍加改變: (3.20)與Canberra系數(shù)相類似的另一個(gè)系數(shù)如下:分離系數(shù) (3.21)最后,如果分類單位取樣不止一個(gè),相似性距離系數(shù)可按下面系數(shù)(coefficientofraciallikeness)計(jì)算。距離系數(shù): (3.22)其中和分別表示性狀k對(duì)于第i個(gè)分類單位和第j個(gè)分類單位取樣的平均值;sik和sjk是其相應(yīng)的標(biāo)準(zhǔn)差;mi和mj分別表示分類單位i和分類單位j的取樣個(gè)數(shù)。最后要說明兩點(diǎn),其一是公式(3.12)~(3.18)要求數(shù)據(jù)已進(jìn)行標(biāo)準(zhǔn)化處理;公式(3.19)~(3.21)可直接就原始數(shù)據(jù)進(jìn)行計(jì)算。其二是公式(3.12)、(3.18)、(3.19)和(3.20)的系數(shù)與性狀的多少有關(guān)。為了排除這個(gè)影響也可以取相應(yīng)的平均系數(shù),這時(shí)只需緊接在求和符號(hào)之前添加一個(gè)分?jǐn)?shù)“”。3.2相關(guān)系數(shù)與角余弦系數(shù)前一節(jié)的距離系數(shù)屬于相異系數(shù)。在本節(jié)介紹兩種相親系數(shù),即相關(guān)系數(shù)和角余弦系數(shù)。這兩種系數(shù)都來自統(tǒng)計(jì)數(shù)學(xué),學(xué)過數(shù)理統(tǒng)計(jì)的讀者不會(huì)感到陌生。特別是相關(guān)系數(shù),在統(tǒng)計(jì)數(shù)學(xué)中這是一個(gè)重要的統(tǒng)計(jì)量,被普遍使用于表示兩組數(shù)據(jù)的相關(guān)性。Sokal和Michener(1958)將相關(guān)系數(shù)引進(jìn)到數(shù)量分類學(xué),在數(shù)量分類學(xué)中,該系數(shù)繼續(xù)扮演一個(gè)頗為重要的角色。至于角余弦系數(shù)往往被相關(guān)系數(shù)代替,末能普遍采用。它計(jì)算簡(jiǎn)單,其實(shí)也值得推薦使用。如果數(shù)據(jù)來自已標(biāo)準(zhǔn)化的原始數(shù)據(jù)(3.11),兩個(gè)分類單位i與j之間的相關(guān)系數(shù)(correlationcoefficient)定義如下: (3.23)其中。角余弦系數(shù)(coefficientofcosineofincludedangle)定義于下: (3.24)因?yàn)閮蓚€(gè)系數(shù)都屬于相親系數(shù),與距離系數(shù)的相異性有著相反的意義。系數(shù)值越大,相似性程度越大;反之,值越小,相似性程度越小。兩個(gè)系數(shù)都具有以下兩條基本性質(zhì),表述這兩條性質(zhì)時(shí)讓相關(guān)系數(shù)rij也代表角余弦系數(shù)aij。(1)-1≤rij≤1,當(dāng)且僅當(dāng)xik=ckjk(c為非零常數(shù),k=1,2,…,n)時(shí),rij=1(c>0)或rij=-1(c<0)。(2)。這兩條性質(zhì)保證了共分類群等價(jià)性的自反性和對(duì)稱性要求,但是傳遞性也與距離系數(shù)一樣未能被滿足要求。相關(guān)系數(shù)當(dāng)rij=1時(shí),達(dá)到完全正相關(guān),這時(shí)兩個(gè)分類單位數(shù)據(jù)成比例,僅差一個(gè)正比例常數(shù)因子;當(dāng)rij=0時(shí),兩分類單位數(shù)據(jù)不相關(guān);當(dāng)rij=-1時(shí),完全負(fù)相關(guān),兩分類單位數(shù)據(jù)成比例,僅差一個(gè)負(fù)比例常數(shù)因子。角余弦系數(shù)具有明顯的幾何意義,把兩個(gè)分類單位向量Xi和Xj之間的夾角記作θa,根據(jù)向量乘積與向量夾角的關(guān)系有 (3.25)桔??圃囼?yàn)數(shù)據(jù)的平均歐氏距離系數(shù)、相關(guān)系數(shù)、角余弦系數(shù)和絕對(duì)距離系數(shù)分別置于下面表(3-4)、(3-5)、(3-6)和(3-7)中,供讀者參考。表3-4平均歐氏距離系數(shù)(桔??圃囼?yàn)數(shù)據(jù))分類單位平均歐氏距離系數(shù)1234561黨參0.00001.39671.69911.76041.01671.68542桔梗1.39670.00001.46521.10881.43441.18183輪葉沙參1.69911.46520.00001.04941.72480.86644薺苨1.76041.10881.04940.00001.79580.59165羊乳1.01671.43441.72481.79580.00001.71956石沙參1.68541.18180.86640.59161.71950.0000表3-5相關(guān)系數(shù)(桔??圃囼?yàn)數(shù)據(jù))分類單位相關(guān)系數(shù)1234561黨參1.0000-0.0471-0.5061-0.71080.4896-0.69222桔梗-0.04711.0000-0.5135-0.0206-0.0455-0.31423輪葉沙參-0.5061-0.51351.00000.2583-0.51580.49054薺苨-0.7108-0.02060.25831.0000-0.70890.66515羊乳0.4896-0.0455-0.5158-0.70891.0000-0.67386石沙參-0.6922-0.31420.49050.6651-0.67381.0000表3-6角余弦系數(shù)(桔??圃囼?yàn)數(shù)據(jù))分類單位角余弦系數(shù)1234561黨參1.0000-0.1095-0.4910-0.74470.5591-0.73222桔梗-0.10951.0000-0.49440.0525-0.1257-0.18473輪葉沙參-0.4910-0.49441.00000.2559-0.48360.45624薺苨-0.74470.05250.25591.0000-0.75140.71575羊乳0.5591-0.1257-0.4836-0.75141.0000-0.73656石沙參-0.7322-0.18470.45620.7157-0.73651.0000表3-7絕對(duì)距離系數(shù)(桔??圃囼?yàn)數(shù)據(jù))分類單位絕對(duì)距離系數(shù)1234561黨參0.00001.14911.53671.56310.49451.52732桔梗1.14910.00001.00010.73281.26690.69073輪葉沙參1.53671.00010.00000.61191.65460.31564薺苨1.56310.73280.61190.00001.68100.29635羊乳0.49451.26691.65461.68100.00001.64526石沙參1.52730.69070.31560.29631.64520.00003.3聯(lián)合系數(shù)聯(lián)合系數(shù)在生物學(xué)的研究中已經(jīng)起到很重要的作用,特別在生物分類學(xué)、生態(tài)學(xué)、advance\l6生物地理學(xué)和微生物學(xué)中。在生物學(xué)的定量分析研究中,聯(lián)合系數(shù)常常用來表示分類群實(shí)體的相親性和相似性。英國微生物學(xué)家Sneath(1957)首次把聯(lián)合系數(shù)引進(jìn)數(shù)量分類學(xué),advance\l6他曾提出,在對(duì)比兩種細(xì)菌時(shí),把負(fù)匹配從聯(lián)合系數(shù)中排除出去。Sokal與他合著的《數(shù)量分類學(xué)原理》(1963)一書,對(duì)聯(lián)合系數(shù)曾進(jìn)行過總結(jié)。此外,Clifford和Stephenson(1975)也曾做過總結(jié)性的討論,這本著作偏重于生態(tài)學(xué)和生物地理學(xué)的應(yīng)用。有關(guān)聯(lián)合系數(shù)的論述很多,隨著定量分析的發(fā)展,生物學(xué)家與數(shù)學(xué)家設(shè)計(jì)了多種多樣適用于不同需要的聯(lián)合系數(shù),有關(guān)聯(lián)合系數(shù)的理論和應(yīng)用正在發(fā)展中。在各種相似性度量中聯(lián)合系數(shù)難于確切定義。在此我們摘引Sokal和Sneath給出的定義:聯(lián)合系數(shù)(associationcoefficient)是在整個(gè)二元性狀或多態(tài)性狀數(shù)據(jù)上,一對(duì)OTU之間一致性度量的配對(duì)函數(shù)。在大多數(shù)情形,聯(lián)合系數(shù)以二元數(shù)據(jù)出現(xiàn),因此,本書把重點(diǎn)放在二元性狀的聯(lián)合系數(shù)。當(dāng)原始數(shù)據(jù)是二元數(shù)據(jù)時(shí),由于數(shù)據(jù)結(jié)構(gòu)的特殊性,它不必經(jīng)過標(biāo)準(zhǔn)化處理,直接就原始數(shù)據(jù)進(jìn)行相似性系數(shù)的計(jì)算。假設(shè)兩個(gè)分類單位OTUi和OTUj,待比較其相似性,從原始數(shù)據(jù)矩陣中提取相應(yīng)的第i個(gè)和第j個(gè)分類單位向量,OTUi:Yi[yi1yi2yi3…yin]OTUj:Yj[yj1yj2yj3…yjn]其中的分量yik和yjk(k=1,2,…,n)取值0或1。當(dāng)對(duì)比OTUi和OTUj的相似性時(shí),兩組數(shù)據(jù)的匹配有四種情形。即OTUi和OTUj分別為1-1,1-0,0-1,0-0。計(jì)數(shù)這四種情形,將計(jì)數(shù)結(jié)果匯總于一個(gè)規(guī)定的2×2列聯(lián)表如下:OTUj10OTUi1abn=a+b+c+d0cd其中a,b,c和d稱為OTUi和OTUj的匹配數(shù)值。a是兩個(gè)OTU都取1的性狀個(gè)數(shù)計(jì)數(shù)值;d是兩個(gè)OTU都取0的性狀個(gè)數(shù)計(jì)數(shù)值;b和c分別是其中一個(gè)OTU取1,另一個(gè)OTU取0的性狀個(gè)數(shù)計(jì)數(shù)值。列聯(lián)表中的4種情形把性狀可能取到的各種匹配情形都已包括在內(nèi),因此4種情形的計(jì)數(shù)值之和應(yīng)該等于性狀的總個(gè)數(shù)n,即n=a+b+c+d。舉一個(gè)簡(jiǎn)單的例子說明,如果兩個(gè)被比較的分類單位,32個(gè)性狀狀態(tài)記錄如下:1111001110110100010010011101101111001011011110000111010100111010OTUj10OTUi1118076OTUj10OTUi1118076n=11+8+7+6=32兩個(gè)OTU狀態(tài)都取0的性狀有6個(gè),d=6;兩個(gè)OTU分別取1和0的性狀有8個(gè),b=8;兩個(gè)OTU分別取0和1的性狀有7個(gè),c=7。有了匹配數(shù)值,將該值代入聯(lián)合系數(shù)公式,得到反映OTUi和OTUj之間相似性的系數(shù)值。一個(gè)最簡(jiǎn)單的考慮就是計(jì)算匹配一致的性狀個(gè)數(shù)(a+d)占總性狀個(gè)數(shù)n的百分比值。因而有簡(jiǎn)單聯(lián)合系數(shù)當(dāng)然對(duì)問題的考慮,并不都如此簡(jiǎn)單,不同的生物學(xué)問題需要設(shè)計(jì)各種不同的聯(lián)合系數(shù)。聯(lián)合系數(shù)的種類很多,常見的聯(lián)合系數(shù)匯集于表3-8中。此外,還有兩種系數(shù)分別是如下兩個(gè)方程的解: (Preston,1962) (Mountford,1962)它們是超越方程,不具一般的解。由于在具體實(shí)踐中計(jì)算和使用不便,這些系數(shù)未被收列于表3-8中??墒?,Mountford系數(shù)具有近似表達(dá)式2a/(ab+ac+bc),它已被包括在表3-8中。為了便于討論,將表3-8中最左邊的編號(hào)當(dāng)作相應(yīng)聯(lián)合系數(shù)的編號(hào)。例如S(3)是Jaccard系數(shù)SJ,S(6)是簡(jiǎn)單匹配系數(shù)。我們已盡可能把訖今為止的各種二元數(shù)據(jù)的聯(lián)合系數(shù)收集在表3-8中。其中許多是已為人們熟知的系數(shù)。除簡(jiǎn)單匹配系數(shù)S(6)以外,還有Russell和Rao系數(shù)S(1),Jaccard系數(shù)S(3),Czekanowski系數(shù)S(4)和普通的相關(guān)系數(shù)S(15)。表3-8常見的聯(lián)合系數(shù)編號(hào)公式作者或系數(shù)名稱范圍參數(shù)類型h1h2h3l1l2l31RussellandRao,1940[0,1]10110012SokalandSneath,1963[0,1].50010013Jaccard,1908[0,1]10010014Czekanowski,1913[0,1]20010015RogersandTanimoto,1960[0,1].5.5.510016SimpleMatching[0,1]11110017SokalandSneath,1963[0,1]2221001續(xù)表3-8編號(hào)公式作者或系數(shù)名稱范圍參數(shù)類型h1h2h3l1l2l38Unnamedcoefficient[0,1]01111119Unnamedcoefficient[0,1]200101110Kulczynski,1927[0,1]100201111SokalandSneath,1963[0,1]5.50201112Ochiai,1957[0,1]100100113SokalandSneath,1963[0,1]100110114Unnamedcoefficient[0,1].50–.5110115Correlationcoefficient,Guifford,1942[–1,1].50–.5110316McConnaughy,1964[–1,1]100201317Hamann,1961[–1,1]111100318YuleandKendall,1950[–1,1]011111319SokalandSneath,1963[0,∞)111100220Kulczynski,1927[0,∞)100100221SneathandSokal,1973[0,∞)200101222Watsonetal.,1966[0,1]200100423EuclideanDistance[0,1]111100424FagerandMcGowan,1963(-∞,1]*。在實(shí)際工作中,如何從眾多的聯(lián)合系數(shù)中挑選合適的公式呢?讓我們對(duì)表3-8中的聯(lián)合系數(shù)進(jìn)行比較分析。分析方法采取分類分析,利用桔???個(gè)種的二元數(shù)據(jù),對(duì)每一個(gè)聯(lián)合系數(shù)公式,計(jì)算全部種之間的系數(shù)值(共有個(gè)數(shù)值),把23個(gè)聯(lián)合系數(shù)當(dāng)作OTU,種間的15個(gè)系數(shù)值當(dāng)作性狀,作分類運(yùn)算,得樹譜圖(圖3-3)。圖3-3聯(lián)合系數(shù)的分類樹譜圖對(duì)樹譜圖粗略地一瞥,就看到兩個(gè)系數(shù)S(22)和S(23)結(jié)合為一,并與其他系數(shù)明顯不同。呈特殊表現(xiàn)的原因是因?yàn)樗鼈儗儆谙喈愊禂?shù),而其他聯(lián)合系數(shù)都是相親系數(shù)。這兩個(gè)系數(shù)值愈大,OTU之間的相似性愈小,它與大多數(shù)聯(lián)合系數(shù)的相親性截然相反。advance\l6再看樹譜圖,除S(22)和S(23)之外,其他系數(shù)按取值范圍又分為三個(gè)組。三個(gè)取值范圍分別是[0,1],[0,∞)和[-1,1],聯(lián)合系數(shù)的這三個(gè)組分別被稱為相親有限聯(lián)合系數(shù),相親無限聯(lián)合系數(shù)和相親相關(guān)聯(lián)合系數(shù)。進(jìn)一步研究發(fā)現(xiàn)對(duì)稱性是聯(lián)合系數(shù)的另一個(gè)重要方面。所謂對(duì)稱性,在此是指當(dāng)交換表達(dá)式中的兩個(gè)字母,例如a和d,系數(shù)表達(dá)式的值不變,于是稱該系數(shù)關(guān)于a和d對(duì)稱;否則稱關(guān)于a和d不對(duì)稱。表3-8中除最后一個(gè)S(24)外所有的聯(lián)合系數(shù)都關(guān)于b和c對(duì)稱。不難理解,在生物學(xué)相似性意義下,這個(gè)對(duì)稱性是必需的。因?yàn)橄嗨菩缘年P(guān)系,要滿足共分類群等價(jià)關(guān)系的對(duì)稱性條件。然而,聯(lián)合系數(shù)關(guān)于匹配數(shù)和的對(duì)稱性卻完全不同。審視表3-8中的聯(lián)合系數(shù),S(1)~S(4),S(9),S(10),S(12),S(16),S(20)~S(22)和S(24)所有這些系數(shù)是非對(duì)稱的,advance\l6其他都是對(duì)稱的。在樹譜圖(圖3-8)中,盡管非對(duì)稱系數(shù)分散在不同類型中,在相親有限聯(lián)合系數(shù)中,大多數(shù)非對(duì)稱系數(shù)仍聚集在一起。它表明,聯(lián)合系數(shù)關(guān)于a和d的非對(duì)稱性具有內(nèi)在的、數(shù)量上的聯(lián)系。匹配值a表示雙方OTU都取肯定(值1)的性狀個(gè)數(shù),稱之為正匹配數(shù);類似地d稱為負(fù)匹配數(shù)。在生物學(xué)問題中,正匹配數(shù)可能與負(fù)匹配數(shù)具有不同的意義,因而在聯(lián)合系數(shù)的表達(dá)式中應(yīng)占有不同的地位。非對(duì)稱系數(shù)的出現(xiàn)正適合了這種情形的需要。這種情形在生物學(xué)領(lǐng)域?qū)乙姴货r,特別在生態(tài)學(xué)、生物地理學(xué)、advance\l6分類學(xué)和微生物學(xué)中。在生物地理學(xué)和生態(tài)學(xué)中,調(diào)查記錄的原始數(shù)據(jù)矩陣常常表現(xiàn)為這種形式,OTU是地點(diǎn),性狀是種。當(dāng)兩個(gè)地點(diǎn)進(jìn)行比較時(shí),某些所謂指示種和特征種起重要的作用。假若兩個(gè)地點(diǎn)具有相同的指示種或特征種,則可以論斷,它們屬于相同的類型或類別。如果都不具有這樣的種,是否屬于相同類型尚不能做出論斷。例如龍腦香料(Dipterocarpaceae)的一些種被一些生物地理學(xué)家在植被調(diào)查研究中當(dāng)作熱帶雨林的特征種,只要某些調(diào)查地區(qū)一旦具有這個(gè)種,就可以認(rèn)定它們是相同的植被類型——熱帶雨林。相反,如果不具有該種,尚不能獲得如此結(jié)論。這種情形,正匹配比負(fù)匹配更重要,因而對(duì)稱聯(lián)合系數(shù)不合適,應(yīng)該取適當(dāng)?shù)年P(guān)于和不對(duì)稱的系數(shù),才能正確地表達(dá)正、負(fù)匹配不一致的情形。這正是生物地理學(xué)的定量分析中,為什么聯(lián)合系數(shù)常常采取某種非對(duì)稱形式的緣故。與此相類似的情形,也可能在生物分類學(xué)、生物系統(tǒng)學(xué)的研究中出現(xiàn),當(dāng)數(shù)量分類使用二元數(shù)據(jù)時(shí),某些性狀的兩個(gè)對(duì)立狀態(tài)是相互不等價(jià)的,在分類意義上一個(gè)可能比另一個(gè)更重要,也許某一個(gè)具有較大的鑒別意義。例如常常被生物分類學(xué)家強(qiáng)調(diào)的鑒別性狀,化學(xué)分類學(xué)中的特征化學(xué)成分,微生物學(xué)中基于鑒別培養(yǎng)基的某些性狀等。現(xiàn)在就二元數(shù)據(jù)的某些計(jì)算機(jī)技術(shù)進(jìn)行討論??紤]到計(jì)算機(jī)資源的節(jié)省和工作效率的提高,二元數(shù)據(jù)可以分組,每組由三個(gè)連續(xù)的二元數(shù)字組成,如此一組二進(jìn)位數(shù)轉(zhuǎn)換成從0到7的普通十進(jìn)位數(shù),表示如下:二元數(shù)據(jù)000001010011100101110111十進(jìn)位數(shù)01234567將轉(zhuǎn)換后的十進(jìn)位數(shù)(0~7)代替二元數(shù)據(jù),輸入操作將減少勞動(dòng)力,存貯空間的節(jié)省更為可觀。例如,兩組32位的二元數(shù)據(jù)處理如下:二元數(shù)據(jù)依次分成3個(gè)數(shù)字一組:OTUi11110011101101000100100111011011OTUj11001011011110000111010100111010轉(zhuǎn)換成十進(jìn)位數(shù)(0~7)OTUi7473,2111,666OTUj6267,4165,164(數(shù)據(jù)結(jié)尾如果不足一組時(shí),以0補(bǔ)充直到湊足3個(gè)一組)轉(zhuǎn)換后的十進(jìn)位數(shù),每連續(xù)四個(gè)組成一個(gè)整型數(shù),在計(jì)算機(jī)中僅占據(jù)整型變量6個(gè)單元。為了計(jì)算聯(lián)合系數(shù),需要計(jì)數(shù)a,b,c和d。按照匹配數(shù)的定義,似乎前面得到的十進(jìn)數(shù)又要再轉(zhuǎn)換成原來的二元數(shù)據(jù)。這是不必要的,事實(shí)上,可以建立十進(jìn)位數(shù)的配對(duì),把所有十進(jìn)位配對(duì)的a、b、c和d值事先準(zhǔn)備好(表3-9),數(shù)a,b,c分別存于三個(gè)二維數(shù)組A(i,j),B(i,j)和C(i,j)中。然后將所有十進(jìn)位配對(duì)的a,b和c值累計(jì)求和得整個(gè)數(shù)據(jù)的匹配數(shù)a,b和c,再從n減去a,b和c可得d。表3-9二元數(shù)據(jù)的基本匹配數(shù)00001001201030114100510161107111000000030012001200210012002100210030100101021002011110110111101101201020201001020111100210110111012010111020301102011101110120010210111011102010410001020111011101201002101110111020510102011101021011101101200111102010611002010210110111101101111020012010711103001200120021001200210021003000例如就前面已經(jīng)轉(zhuǎn)換成十進(jìn)位數(shù)的數(shù)據(jù),計(jì)算匹配數(shù)值如下:最后將a,b,c和d代入表3-8中的各種公式,可計(jì)算聯(lián)合系數(shù)。聯(lián)合系數(shù)具有6種類型。下面給出這6種類型之間的變換公式。表3-10相似性系數(shù)之間的轉(zhuǎn)換公式類型類型1類型2類型3類型4類型5類型6相親有限系數(shù)[0,M]類型1SM-S相親無限系數(shù)[0,∞)類型2S相親相關(guān)系數(shù)[-1,1]類型3S-S相異有限系數(shù)[0,M]類型4M-SS相異無限系數(shù)[0,∞)類型5S相異相關(guān)系數(shù)[-1,1]類型6-SS現(xiàn)在我們將利用表3-10所建立的相似性系數(shù)變換討論聯(lián)合系數(shù)的普遍公式。表3-8中所列舉的聯(lián)合系數(shù),按照取值范圍可歸屬于6種類型,取值為[0,1]的系數(shù)最為普遍,屬于相親有限類型。聯(lián)合系數(shù)屬于相親有限類型的定為基本類型。基于二元數(shù)據(jù)的聯(lián)合系數(shù),除去個(gè)別以外,絕大多數(shù)都可以借表3-10的相似性系數(shù)變換轉(zhuǎn)變成基本類型;反過來從基本類型也可以轉(zhuǎn)換成其他任何一種類型。因此要解決聯(lián)合系數(shù)的統(tǒng)一計(jì)算,只要基本類型的計(jì)算得到解決,其他任何類型的計(jì)算也就被解決。作者(1989)設(shè)計(jì)了聯(lián)合系數(shù)的兩個(gè)普遍公式,把表3-8中所有取值為[0,1]的相親有限類型聯(lián)合系數(shù)都?xì)w于該公式。兩個(gè)普遍公式如下: (3.26) (3.27)(h1+h2=1且h3=0,除去當(dāng)公式S(14)和S(15)時(shí)h3-0.5)其中這兩個(gè)普遍式中有六個(gè)參數(shù),參數(shù)h1,h2和h3≥0(除系數(shù)S(14)和S(15),h3=-0.5以外),l1,l2和l3為非負(fù)整數(shù),l3取值非0即1。每給一組適當(dāng)?shù)膮?shù)就決定了一個(gè)聯(lián)合系數(shù)。表3-8中列出了所有系數(shù)(S(24)除外)的參數(shù)值。參數(shù)l1和l2通常取整數(shù)0或1,這時(shí)公式中的指數(shù)項(xiàng)可以被非指數(shù)項(xiàng)取代,例如可以被[al1+(1-l1)][dl2+(1-l2)]代替。公式(3.27)中參數(shù)h1和h2可視為權(quán)系數(shù),當(dāng)l1≠l2且h1≠h2(h1+h2=1)時(shí)公式屬于非對(duì)稱(關(guān)于a與d)形式。公式(3.26)中參數(shù)l3除S(8),S(9),S(18)和S(21)取值1以外均取0值;參數(shù)h1,h2和h3也可當(dāng)作權(quán)系數(shù),若h1=h2且h1=h3公式(3.26)對(duì)稱,否則(且l1≠l2)非對(duì)稱;當(dāng)參數(shù)l1=l2時(shí)公式(3.26)也取對(duì)稱形式。表3-8中系數(shù)S(1)~S(14)取值范圍[0,1],已經(jīng)被定為基本類型,稱之為基本聯(lián)合系數(shù)(fundamentalassociationcoefficients)。稱之為基本的含意之一在于這些系數(shù)可以由前述兩個(gè)普遍式(3.26)和(3.27)直接計(jì)算出來。S(1)-S(9)由第一個(gè)普遍式(3.26)給出;advance\l6S(10)-S(14)由第二個(gè)普遍式(3.27)給出。其他系數(shù)可以由這兩個(gè)普遍公式間接算得,把間接算得的聯(lián)合系數(shù)稱為擴(kuò)展聯(lián)合系數(shù)(extendedassociationcoefficients)。對(duì)它的計(jì)算先代入普遍公式,得到相應(yīng)的基本聯(lián)合系數(shù),然后再根據(jù)原數(shù)據(jù)所要求的類型,作表3-10中的變換,得到所需要的聯(lián)合系數(shù)。表3-8中S(15)~S(23)都屬于擴(kuò)展聯(lián)合系數(shù),S(15)和S(16)由普遍式(3.27)計(jì)算,S(17)~S(23)歸普遍式(3.26)計(jì)算。它們所屬的類型在表3-8中已經(jīng)給出。例如Jaccard系數(shù)S(3),從表中參數(shù)值知h1=1,h2=h3=0,l1=1并且l2=l3=0,代入普遍公式(3.26)得本系數(shù)值。Kulczynski系數(shù)S(10),參數(shù)值取h1=1,h2=h3=0,l1=2,l2=0,l3=1代入普遍公式(3.27)計(jì)算可得。以上都屬于基本聯(lián)合系數(shù)。再舉擴(kuò)展聯(lián)合系數(shù)的例子,表3-8中的系數(shù)S(17),S(19)和S(23)屬于擴(kuò)展聯(lián)合系數(shù)。這些系數(shù)的6個(gè)參數(shù)都與S(6)完全相同,對(duì)它們的計(jì)算先從計(jì)算S(6)開始。將參數(shù)h1=h2=h3=1,l1=1,l2=l3=0,代入公式(3.26)算得基本聯(lián)合系數(shù)S(6)。S(6)屬于相親有限,類型1。S(17),S(19)和S(23)分別為類型3、類型2和類型4,要獲得這些系數(shù)分別再做表3-10中的變換F13(S)=2S-1,和F14(S)=1-S(注意,這里M=1)。這三個(gè)系數(shù)中的S(23)就是聯(lián)合系數(shù)中的歐氏距離系數(shù)。再看一個(gè)重要的系數(shù),相關(guān)系數(shù)EQ\L(Sφ=S(15),)該系數(shù)是基本聯(lián)合系數(shù)S(14)的擴(kuò)展類型。對(duì)它的計(jì)算是先將h1=0.5,h2=0,h3=-0.5,l1=l2=1,l3=0代入普遍公式(3.27),先得S(14);然后再做F13(S)=2S-1的轉(zhuǎn)換可得Sφ。聯(lián)合系數(shù)的普遍公式與相似性系數(shù)的轉(zhuǎn)換公式相結(jié)合,不僅把當(dāng)前已經(jīng)被使用過的聯(lián)合系數(shù)的計(jì)算包括在內(nèi),而且還可以開拓出更多的新系數(shù)。當(dāng)前聯(lián)合系數(shù)的使用有片面性,對(duì)于非對(duì)稱系數(shù)僅考慮對(duì)匹配數(shù)a的加強(qiáng),而忽視了對(duì)匹配數(shù)d的加強(qiáng)。聯(lián)合系數(shù)中相親類型多,相異類型少。新系數(shù)的開拓有助于克服使用上的片面性。如果把普遍公式的6個(gè)參數(shù)排成一組數(shù)[h1h2h3l1l2l3]按照參數(shù)的要求每給出一組參數(shù)都對(duì)應(yīng)于一個(gè)基本聯(lián)合系數(shù),以及它的5個(gè)擴(kuò)展聯(lián)合系數(shù)。例如我們信手給出一組值[220010],這一組參數(shù)值對(duì)于公式(3.26)相應(yīng)的基本聯(lián)合系數(shù)是它的擴(kuò)展類型只須將該系數(shù)代入表3-10中的轉(zhuǎn)換公式Fli(S)(i=2,3,…,6),便可得到。這些系數(shù)尚未見應(yīng)用報(bào)道。它的基本類型是非對(duì)稱的,公式的數(shù)學(xué)結(jié)構(gòu)分母中2d項(xiàng)出現(xiàn),削弱了匹配數(shù)d的作用,從而加強(qiáng)了a的作用。因此該公式對(duì)生物地理和具有特征性狀的分類研究可能有使用前景。6個(gè)參數(shù)[h1h2h3l1l2l3]得到的組合數(shù)量是驚人的,從中開發(fā)出具有使用價(jià)值的聯(lián)合系數(shù),數(shù)量之大是相當(dāng)可觀的,表3-8中列出的基本聯(lián)合系數(shù)僅僅14個(gè)。足見聯(lián)合系數(shù)的應(yīng)用研究中,未開墾的處女地還十分廣闊。相似性系數(shù)的轉(zhuǎn)換和普遍公式的相結(jié)合將為聯(lián)合系數(shù)的進(jìn)一步開拓應(yīng)用提供方便。相似性系數(shù)的轉(zhuǎn)換和聯(lián)合系數(shù)普遍公式為計(jì)算聯(lián)合系數(shù)編寫電腦程序帶來的益處,是十分明顯的,下面畫出這兩者相結(jié)合的聯(lián)合系數(shù)計(jì)算程序流程圖(圖3-4)。圖3-4聯(lián)合系數(shù)計(jì)算程序流程圖第四節(jié)表征分類的分類運(yùn)算表征分類從原始資料的收集和整理開始,形成了原始數(shù)據(jù),又經(jīng)過許多運(yùn)算過程,advance\l6得出了我們所需要的相似性系數(shù)矩陣。做好這些準(zhǔn)備以后,就要開始著手分類運(yùn)算。分類運(yùn)算是整個(gè)表征分類的核心內(nèi)容,它決定了分類結(jié)果的好壞,因此,生物學(xué)家十分關(guān)心。分類運(yùn)算是數(shù)量分類最困難的工作,各種數(shù)學(xué)工具應(yīng)用于分類運(yùn)算產(chǎn)生了許多分類方法,它也是數(shù)學(xué)家熱心致力于研究的課題之一。簡(jiǎn)單的系統(tǒng)分類距離系數(shù)的系統(tǒng)分類,其運(yùn)算過程大致如下。先將每一個(gè)分類單位看做是一個(gè)類群,運(yùn)算最初,類群與類群之間的距離系數(shù),也就是分類單位之間的距離系數(shù);分類單位的距離系數(shù)矩陣,也就是類群的距離系數(shù)矩陣??紤]將相似性最接近的類群先結(jié)合,因而從類群的距離系數(shù)矩陣中找到距離最小的一對(duì)類群,將這兩個(gè)類群合并,獲得一個(gè)新的類群。然后根據(jù)一定的法則,計(jì)算新類群與其他所有類群之間的距離系數(shù),以這個(gè)新的類群代替被合并的一對(duì)類群,得到類群之間的新的距離系數(shù)矩陣,這樣就完成了一次循環(huán)運(yùn)算。接著進(jìn)行下一次循環(huán)運(yùn)算,上次運(yùn)算得到的矩陣中再找距離最近的兩個(gè)類群,將這一對(duì)類群合并,再計(jì)算系數(shù),得到新的系數(shù)矩陣……。一再重復(fù)執(zhí)行這樣的循環(huán)運(yùn)算過程,運(yùn)算過程與前面完全相同。每循環(huán)一次,有一個(gè)類群被歸并,獲得的系數(shù)矩陣其階數(shù)減少一階。直到所有的分類單位都?xì)w屬于一個(gè)類群為止,整個(gè)分類運(yùn)算結(jié)束。讓我們?nèi)nderson等(1934)對(duì)樺木科(Betulaceae)植物的研究數(shù)據(jù)進(jìn)行演算,以此當(dāng)作一例來具體說明分類運(yùn)算方法。分類單位是樺木科中的6個(gè)屬,下面是屬之間的距離系數(shù):表3-11樺木科6個(gè)屬的距離系數(shù)分類單位1234561苗榆屬(Ostrya)0.01.62.13.15.15.82鵝耳櫪屬(Carpinus)1.60.03.33.65.26.13虎榛子屬(Ostryopsis)2.13.30.02.45.26.04榛屬(Corylus)3.13.62.40.04.85.05樺木屬(Betula)5.15.25.24.80.03.56榿木屬(Alnus)5.86.16.05.03.50.0最初將每一個(gè)分類單位看作是一個(gè)類群,記作Gi={i}(i=1,2,…,6)。在此,括號(hào)中的數(shù)碼是分類單位的編碼,以此碼代表該分類單位。該數(shù)據(jù)分類運(yùn)算步驟如下:1021.61021.60M(1)32.13.3043.13.62.4055.15.25.24.8065.86.16.05.03.50123456M(1)中尋找最小值,即d12=1.6。將類群G1與類群G2合并。得一新類群記作G7G7={1,2}計(jì)算新類群與其他類群的距離。距離的計(jì)算按最小距離方法。其他類群之間的系數(shù)不變,得新的距離系數(shù)矩陣M(2)。7032.10M(2)7032.10M(2)43.12.4055.15.24.8065.86.05.03.5073456值,即d37=2.1。將類群G3與類群G7合并,得新的類群,記作G8={7,3}={1,2,3}計(jì)算新類群與其他類群的距離系數(shù)。得新的系數(shù)矩陣M(3)。8042.40M(3)58042.40M(3)55.14.8065.85.03.508456 值,即d48=2.4,將類群G4和G8合并,得新類群記作G9G9={8,4}={1,2,3,4}計(jì)算新類群G9與其他類群的系數(shù)得新的系數(shù)矩陣M(4)。9054.8065.03.59054.8065.03.50956值,d56=3.5,將類群G5與G6合并,得新類群G10G10={5,6}計(jì)算類群G10與G9的系數(shù)得新的系數(shù)矩陣M(5)。90104.890104.80910二個(gè)類群G9和G10,將此二個(gè)類群合并得G11G11={9,1}={1,2,3,4,5,6}分類運(yùn)算結(jié)束。每次循環(huán)若出現(xiàn)兩個(gè)以上最小值,取分類單位編碼大值的最小者;此時(shí)若分類編碼大值相同,取分類單位編碼小值的最小者。最后,將分類運(yùn)算結(jié)果畫出樹譜圖(dendrogram),見圖3-5。樹譜圖顯示出樺木科內(nèi)六個(gè)屬的分類系統(tǒng)關(guān)系。此例給出分類運(yùn)算最簡(jiǎn)單的一種方法,幫助我們了解聚類運(yùn)算的基本過程。從這個(gè)最簡(jiǎn)單的例子出發(fā),隨后還要對(duì)各種距離系數(shù)的分類方法進(jìn)行深入討論。讓我們回過頭來再看看全部演算過程,所有這些運(yùn)算步驟中最關(guān)鍵性的一步是合并的類群確立以后,如何計(jì)算新的距離系數(shù)。這些系數(shù)將決定整個(gè)分類運(yùn)算的過程,類群之間,哪一個(gè)先被合并,怎樣合并,都要取決于這些系數(shù)值;分類最后的結(jié)果是好或者是壞,也取決于我們對(duì)新距離的定義是否合理。在距離系數(shù)基礎(chǔ)上的分類方法雖然名目繁多,但是運(yùn)算的基本過程都相同。究其根本,區(qū)別全在新距離的定義不同,不同的距離定義,就得到不同的分類方法。許多從事數(shù)量分類研究的學(xué)者都對(duì)這個(gè)關(guān)鍵性的問題做了大量工作。運(yùn)算過程中計(jì)算新類群距離的方法逐漸改進(jìn),分類的方法日趨完善。在此討論距離系數(shù)的各種分類方法,實(shí)際上都?xì)w結(jié)到運(yùn)算過程中如何確定新類群的距離系數(shù)?,F(xiàn)在讓我們開始討論。圖3-5樺木科樹譜圖(最短距離法,單鏈法)假如在某一分類運(yùn)算的循環(huán)過程中,被合并的類群是Gp和Gq,歸并以后新的類群是Gr。Gi是任意一個(gè)已知的類群,Gr和Gi的距離系數(shù)可以定義如下: (3.28)這就是前述例子中所采用的距離計(jì)算方法。因?yàn)槿【嚯x的最小值,這個(gè)分類方法就被稱為最短距離法(theshortestdistancemethod)。與最短距離法相對(duì)應(yīng)的是最長(zhǎng)距離法(thelongestdistancemethod),它的距離定義是取最大值, (3.29)前面樺木科的運(yùn)算數(shù)據(jù),用最長(zhǎng)距離法進(jìn)行運(yùn)算得到的樹譜圖見圖3-6。運(yùn)算過程與最短距離法完全相同,只是在計(jì)算距離時(shí)將最小值改換成最大值。由于距離取最大值,二個(gè)距離的最大系數(shù)符合聚合的條件時(shí),最大值符合要求,兩類群之間所有分類單位的距離都小于這個(gè)最大值,當(dāng)然也都符合相聚的條件,所以最長(zhǎng)距離法也可稱為全鏈法(completelinkagemethod);最短距離法也稱為單鏈法(singlelinkagemethod)。圖3-6樺木科樹譜(最長(zhǎng)距離法,全鏈法)圖3-7平均鏈的系統(tǒng)分類前面介紹了兩種分類運(yùn)算方法。無論是最長(zhǎng)距離法還是最短距離法,新距離的定義取了兩個(gè)極端,顯然是非常粗糙的、不太合理的。改進(jìn)的第一個(gè)方法是中線法。圖3-7中,線段IP和IQ分別表示類群Gi與類群Gp和Gq之間的距離。類群Gp和Gq合并成Gr以后,類群Gi與Gr的距離按最短、最長(zhǎng)距離法的定義就是從線段IP和IQ中選取最短者或最長(zhǎng)者,如果采取三角形IPQ的中線IM來表示Gi與Gr之間的距離,自然要比IP和IQ要合理。因?yàn)槿∮玫氖侨切沃芯€,分類方法的名稱由此而來?,F(xiàn)在將計(jì)算IM長(zhǎng)度的表達(dá)式寫出來,幾何學(xué)中三角形中線的計(jì)算公式有 (3.30)前面的數(shù)據(jù)用中線法進(jìn)行計(jì)算得到的樹譜圖見圖3-8。MM圖3-8樺木科樹譜圖(中線法)圖3-9中線法的距離,M點(diǎn)取在P與Q的中點(diǎn),對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論