生物統(tǒng)計學(xué)必備之—對多元的統(tǒng)計分析_第1頁
生物統(tǒng)計學(xué)必備之—對多元的統(tǒng)計分析_第2頁
生物統(tǒng)計學(xué)必備之—對多元的統(tǒng)計分析_第3頁
生物統(tǒng)計學(xué)必備之—對多元的統(tǒng)計分析_第4頁
生物統(tǒng)計學(xué)必備之—對多元的統(tǒng)計分析_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章第三章 多元統(tǒng)計分析多元統(tǒng)計分析生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 在工業(yè)、農(nóng)業(yè)、醫(yī)學(xué)、氣象、環(huán)境以及經(jīng)濟(jì)、在工業(yè)、農(nóng)業(yè)、醫(yī)學(xué)、氣象、環(huán)境以及經(jīng)濟(jì)、管理等諸多領(lǐng)域中,常常需要同時觀測多個管理等諸多領(lǐng)域中,常常需要同時觀測多個指標(biāo)。例如,要了解一個國家經(jīng)濟(jì)發(fā)展的類指標(biāo)。例如,要了解一個國家經(jīng)濟(jì)發(fā)展的類型也需觀測很多指標(biāo),如:人均國民收入、型也需觀測很多指標(biāo),如:人均國民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等等。人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等等。 在醫(yī)在醫(yī)學(xué)診斷中,要判斷某人是有病還是無病、也學(xué)診斷中,要判斷某人是有病還是無病、也需要做多項指標(biāo)的體檢,如:血壓、心臟脈需要做多項指標(biāo)的體檢,如:血

2、壓、心臟脈博跳動的次數(shù)、白血球、體溫等等。博跳動的次數(shù)、白血球、體溫等等。 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 總之,在科研、生產(chǎn)和日常生活中,受多總之,在科研、生產(chǎn)和日常生活中,受多種指標(biāo)共同作用和影響的現(xiàn)象是大量存在種指標(biāo)共同作用和影響的現(xiàn)象是大量存在的,舉不勝舉。上述指標(biāo)的,舉不勝舉。上述指標(biāo), 在數(shù)學(xué)上通常稱在數(shù)學(xué)上通常稱為變量,由于每次觀測的指標(biāo)值是不能預(yù)為變量,由于每次觀測的指標(biāo)值是不能預(yù)先確定的。因此每個指標(biāo)可用隨機變量來先確定的。因此每個指標(biāo)可用隨機變量來表示。表示。 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 多元分析也是一種處理大量數(shù)據(jù)的方法,與多元分析也是一種處理大量數(shù)據(jù)的方法,與統(tǒng)

3、計分析所不同的是:多元分析所處理的不統(tǒng)計分析所不同的是:多元分析所處理的不是統(tǒng)計意義下的樣本,一般并不要求用它們是統(tǒng)計意義下的樣本,一般并不要求用它們?nèi)ネ茢嗫傮w的特征,因而不需要隨機取樣,去推斷總體的特征,因而不需要隨機取樣,不必了解數(shù)據(jù)的分布性質(zhì),也不涉及顯著性不必了解數(shù)據(jù)的分布性質(zhì),也不涉及顯著性檢驗。檢驗。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 從應(yīng)用的角度看,多元統(tǒng)計分析就是要研從應(yīng)用的角度看,多元統(tǒng)計分析就是要研究多個變量之間的關(guān)系,但哪些問題才是究多個變量之間的關(guān)系,但哪些問題才是多元統(tǒng)計的內(nèi)容,并無嚴(yán)格的界限。多元統(tǒng)計的內(nèi)容,并無嚴(yán)格的界限。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 一般認(rèn)為,

4、典型的多元統(tǒng)計分析主要可歸一般認(rèn)為,典型的多元統(tǒng)計分析主要可歸結(jié)為兩類問題:第一類是決定某一樣品的結(jié)為兩類問題:第一類是決定某一樣品的歸屬問題,即稱之為分類,判別分析和聚歸屬問題,即稱之為分類,判別分析和聚類分析就屬于此內(nèi)容。第二類問題是設(shè)法類分析就屬于此內(nèi)容。第二類問題是設(shè)法降低變量維數(shù),同時將變量變?yōu)楠毩⒆兞?,降低變量維數(shù),同時將變量變?yōu)楠毩⒆兞?,以便更好地說明多變量之間的關(guān)系,常稱以便更好地說明多變量之間的關(guān)系,常稱之為排序。主成分分析和因子分析屬于此之為排序。主成分分析和因子分析屬于此內(nèi)容。內(nèi)容。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 多元統(tǒng)計分析有很多的方法,我們只介紹多元統(tǒng)計分析有很多的

5、方法,我們只介紹幾種在生物學(xué)中較常用的方法。幾種在生物學(xué)中較常用的方法。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析第一節(jié)第一節(jié) 數(shù)據(jù)的類型數(shù)據(jù)的類型 可以把研究的對象叫做實體,描述實體數(shù)可以把研究的對象叫做實體,描述實體數(shù)量特征的各個信息項目稱為屬性(變量)。量特征的各個信息項目稱為屬性(變量)。如在植物生態(tài)學(xué)研究中,實體可以是樣方、如在植物生態(tài)學(xué)研究中,實體可以是樣方、標(biāo)地、地段標(biāo)地、地段(林分林分)或群落等等。實體中觀測或群落等等。實體中觀測的各個種的數(shù)據(jù)項目的各個種的數(shù)據(jù)項目(如種的存在不存在、如種的存在不存在、種的頻度、蓋度或重量等等種的頻度、蓋度或重量等等),以及環(huán)境因,以及環(huán)境因素的數(shù)據(jù)項目

6、素的數(shù)據(jù)項目(如樣地坡度、雨量、日照、如樣地坡度、雨量、日照、土壤深度、各種養(yǎng)分元素的含量等等土壤深度、各種養(yǎng)分元素的含量等等)都是都是屬性。屬性。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 由于屬性多種多樣,反映它們的數(shù)據(jù)類型由于屬性多種多樣,反映它們的數(shù)據(jù)類型就有所不同。比如,種的頻度、雨量、日就有所不同。比如,種的頻度、雨量、日照時數(shù)等是數(shù)值;種的存在和不存在只有照時數(shù)等是數(shù)值;種的存在和不存在只有兩種狀態(tài):土壤顏色可分為紅、黑、黃等兩種狀態(tài):土壤顏色可分為紅、黑、黃等多種狀態(tài)等等。所以需要考慮數(shù)據(jù)的類型,多種狀態(tài)等等。所以需要考慮數(shù)據(jù)的類型,以及不同類型間的轉(zhuǎn)化,最后將具有同一以及不同類型間的轉(zhuǎn)

7、化,最后將具有同一類型的數(shù)據(jù)排列成要求的格式。類型的數(shù)據(jù)排列成要求的格式。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 具體來講,屬性的類型分為三種:具體來講,屬性的類型分為三種: 一、名稱屬性(一、名稱屬性(nominal attributes) 有的屬性只能描述為若干種不同的狀態(tài),有的屬性只能描述為若干種不同的狀態(tài),每個實體具有其中一種狀態(tài)。每個實體具有其中一種狀態(tài)。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 比如土壤的顏色比如土壤的顏色(屬性屬性)可分為紅、黑、可分為紅、黑、黃等等:巖石可分為頁巖、砂巖、玄武巖、黃等等:巖石可分為頁巖、砂巖、玄武巖、花崗巖等等;植被可分為森林、草原、灌花崗巖等等;植被可分為森

8、林、草原、灌叢、苔原等等。這種屬性的基本特點是,叢、苔原等等。這種屬性的基本特點是,在作為數(shù)據(jù)處理時各個狀態(tài)的地位是等同在作為數(shù)據(jù)處理時各個狀態(tài)的地位是等同的,狀態(tài)之間沒有一定的順序。由于它的的,狀態(tài)之間沒有一定的順序。由于它的各種狀態(tài)可用不同名稱表示,所以稱這種各種狀態(tài)可用不同名稱表示,所以稱這種屬性為名稱屬性。屬性為名稱屬性。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 1二元屬性二元屬性 名稱屬性的一種重要特別情況,是只具有兩名稱屬性的一種重要特別情況,是只具有兩個狀態(tài)。如物種的存在不存在,某昆蟲的個狀態(tài)。如物種的存在不存在,某昆蟲的有翼無翼,某植物的有刺無刺,動物是雌有翼無翼,某植物的有刺無刺,動

9、物是雌是雄,等等。這種屬性叫做二元屬性,因是雄,等等。這種屬性叫做二元屬性,因為它往往是確定某種性質(zhì)的有無,所以也為它往往是確定某種性質(zhì)的有無,所以也稱為定性屬性。稱為定性屬性。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 對二元屬性的兩個狀態(tài)常用兩個數(shù)字對二元屬性的兩個狀態(tài)常用兩個數(shù)字0和和1來表示。當(dāng)屬性是指某種性質(zhì)的有無時,來表示。當(dāng)屬性是指某種性質(zhì)的有無時,一般用一般用0表示不具有該性質(zhì),表示不具有該性質(zhì),1表示具有該表示具有該性質(zhì),比如用性質(zhì),比如用0表示種不存在,表示種不存在,1表示存在。表示存在。當(dāng)屬性是指兩個對立的狀態(tài)時,當(dāng)屬性是指兩個對立的狀態(tài)時,0和和l各表哪各表哪個狀態(tài)可以隨便指定,

10、比如可用個狀態(tài)可以隨便指定,比如可用0表雄、表雄、1表雌,或者反之。表雌,或者反之。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析2無序多狀態(tài)屬性無序多狀態(tài)屬性 具有三個以上狀態(tài)的名稱屬性,又稱具有三個以上狀態(tài)的名稱屬性,又稱為無序多狀態(tài)屬性,以強調(diào)它的狀態(tài)間無為無序多狀態(tài)屬性,以強調(diào)它的狀態(tài)間無一定順序。一定順序。 假設(shè)某屬性有假設(shè)某屬性有n個狀態(tài),我們可分別用個狀態(tài),我們可分別用數(shù)字?jǐn)?shù)字1、2、3、n代表各個狀態(tài)。比如代表各個狀態(tài)。比如巖石類型,可用巖石類型,可用1代表頁巖,代表頁巖,2代表砂巖,代表砂巖,3代表玄武巖,代表玄武巖,4代表花崗巖。代表花崗巖。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析二、二、 順序

11、屬性順序?qū)傩?ordinal attributes) 它與無序多狀態(tài)屬性一樣,也只能分成它與無序多狀態(tài)屬性一樣,也只能分成多個狀態(tài)。所不同的是,現(xiàn)在的狀態(tài)有確多個狀態(tài)。所不同的是,現(xiàn)在的狀態(tài)有確定的順序,所以也稱為有序多狀態(tài)屬性。定的順序,所以也稱為有序多狀態(tài)屬性。 例如某植物種的多度分為大量、常見、例如某植物種的多度分為大量、常見、普遍、罕見和不出現(xiàn)五種狀態(tài);土壤酸堿普遍、罕見和不出現(xiàn)五種狀態(tài);土壤酸堿度分為強酸性、弱酸性、中性、弱堿性、度分為強酸性、弱酸性、中性、弱堿性、強堿性等狀態(tài);植物種子分成大、中、小強堿性等狀態(tài);植物種子分成大、中、小三級,等等。顯然各狀態(tài)之間的順序是有三級,等等。

12、顯然各狀態(tài)之間的順序是有意義。意義。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 與無序多狀態(tài)屬性與無序多狀態(tài)屬性樣,對順序?qū)傩砸矝]樣,對順序?qū)傩砸矝]有理想的數(shù)據(jù)表示方法。用有理想的數(shù)據(jù)表示方法。用1、2、3、n依次表示各個狀態(tài),雖然數(shù)字間的大小差依次表示各個狀態(tài),雖然數(shù)字間的大小差別反映了屬性狀態(tài)間的順序關(guān)系,但是不別反映了屬性狀態(tài)間的順序關(guān)系,但是不能恰當(dāng)?shù)乇硎靖鳡顟B(tài)間的差距。能恰當(dāng)?shù)乇硎靖鳡顟B(tài)間的差距。 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析三、三、 數(shù)量屬性數(shù)量屬性(quantitative attributes) 有許多屬性是用數(shù)值數(shù)據(jù)來表示的,比如有許多屬性是用數(shù)值數(shù)據(jù)來表示的,比如某植物種的頻度、

13、蓋度和重量,土壤的深某植物種的頻度、蓋度和重量,土壤的深度、含水量,各養(yǎng)分元素的含量等等都是度、含水量,各養(yǎng)分元素的含量等等都是這種屬性,我們稱之為數(shù)量屬性,或定量這種屬性,我們稱之為數(shù)量屬性,或定量屬性。描述這種屬性的數(shù)值可以直接用于屬性。描述這種屬性的數(shù)值可以直接用于通常數(shù)學(xué)上的各種運算和大多數(shù)的相似系通常數(shù)學(xué)上的各種運算和大多數(shù)的相似系數(shù)計算。數(shù)計算。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析第二節(jié)第二節(jié)數(shù)據(jù)的處理數(shù)據(jù)的處理 一、數(shù)據(jù)的簡縮一、數(shù)據(jù)的簡縮 去除極大或極小的數(shù)據(jù)去除極大或極小的數(shù)據(jù)二、數(shù)據(jù)的轉(zhuǎn)換二、數(shù)據(jù)的轉(zhuǎn)換 將原始數(shù)據(jù)通過運算轉(zhuǎn)化為新值,有多種將原始數(shù)據(jù)通過運算轉(zhuǎn)化為新值,有多種方

14、法,最常用的有:對數(shù)轉(zhuǎn)換、平方根轉(zhuǎn)方法,最常用的有:對數(shù)轉(zhuǎn)換、平方根轉(zhuǎn)換、立方根轉(zhuǎn)換、倒數(shù)轉(zhuǎn)換、角度轉(zhuǎn)換、換、立方根轉(zhuǎn)換、倒數(shù)轉(zhuǎn)換、角度轉(zhuǎn)換、概率轉(zhuǎn)換等。概率轉(zhuǎn)換等。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析三、數(shù)據(jù)的標(biāo)準(zhǔn)化三、數(shù)據(jù)的標(biāo)準(zhǔn)化 用數(shù)量數(shù)據(jù)時,由于不同屬性的量綱用數(shù)量數(shù)據(jù)時,由于不同屬性的量綱不同,可能有的屬性數(shù)值很大,有的又很不同,可能有的屬性數(shù)值很大,有的又很小。這樣在計算兩實體間的相似系數(shù)時,小。這樣在計算兩實體間的相似系數(shù)時,往往突出了大數(shù)值屬性的作用而壓低了小往往突出了大數(shù)值屬性的作用而壓低了小數(shù)值屬性的作用。數(shù)據(jù)標(biāo)準(zhǔn)化是為克服這數(shù)值屬性的作用。數(shù)據(jù)標(biāo)準(zhǔn)化是為克服這種困難的一類方法

15、,標(biāo)準(zhǔn)化方法的選擇與種困難的一類方法,標(biāo)準(zhǔn)化方法的選擇與相似系數(shù)的類型有密切的關(guān)系。相似系數(shù)的類型有密切的關(guān)系。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(包括中心化與正規(guī)化包括中心化與正規(guī)化)引起的數(shù)引起的數(shù)值變換依賴于原始數(shù)據(jù)整體的取值,隨著值變換依賴于原始數(shù)據(jù)整體的取值,隨著所用的整體值不一樣而有各種不同的標(biāo)準(zhǔn)所用的整體值不一樣而有各種不同的標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的方法常有:用總和標(biāo)準(zhǔn)化、化,標(biāo)準(zhǔn)化的方法常有:用總和標(biāo)準(zhǔn)化、用最大值標(biāo)準(zhǔn)化、用極差標(biāo)準(zhǔn)化、用模標(biāo)用最大值標(biāo)準(zhǔn)化、用極差標(biāo)準(zhǔn)化、用模標(biāo)準(zhǔn)化、數(shù)據(jù)的中心化、用離差標(biāo)準(zhǔn)化、用準(zhǔn)化、數(shù)據(jù)的中心化、用離差標(biāo)準(zhǔn)化、用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)

16、差標(biāo)準(zhǔn)化。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 例例1. 假定有如下假定有如下4個樣方個樣方4個種的原始數(shù)據(jù)個種的原始數(shù)據(jù)樣方樣方1234種種12000100050015002200100501503201050504020001550500 用總和標(biāo)準(zhǔn)化用總和標(biāo)準(zhǔn)化生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 用樣方總和的標(biāo)準(zhǔn)化,是對每列數(shù)據(jù)求出總用樣方總和的標(biāo)準(zhǔn)化,是對每列數(shù)據(jù)求出總和,有和,有 M1:(列列)2000十十200十十20十十02220, M2:(列列1000十十100十十10十十20003110, M3:(列列)500十十50十十50十十15502150, M4:(列列)1500十十150

17、十十50十十5002200生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 然后將每列的各個數(shù)據(jù)分別除以本列的總?cè)缓髮⒚苛械母鱾€數(shù)據(jù)分別除以本列的總和,就得到了標(biāo)準(zhǔn)化后的數(shù)據(jù)。這實際上和,就得到了標(biāo)準(zhǔn)化后的數(shù)據(jù)。這實際上是將每樣方中各個種的數(shù)值都變成它占全是將每樣方中各個種的數(shù)值都變成它占全樣方總和數(shù)值的比例,顯然這樣所有數(shù)據(jù)樣方總和數(shù)值的比例,顯然這樣所有數(shù)據(jù)都變?yōu)槎甲優(yōu)?與與1之間的小數(shù)值,并且每列之和之間的小數(shù)值,并且每列之和必為必為1生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 對樣方標(biāo)準(zhǔn)化引起的數(shù)據(jù)變化是:對樣方標(biāo)準(zhǔn)化引起的數(shù)據(jù)變化是:生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析最后結(jié)果為:最后結(jié)果為:生物統(tǒng)計學(xué)必備之對多

18、元的統(tǒng)計分析第三節(jié)第三節(jié) 相似系數(shù)相似系數(shù) 相似系數(shù)是衡量兩個實體,或一個實體相似系數(shù)是衡量兩個實體,或一個實體與一個實體組之間或兩個實體組之間相似程與一個實體組之間或兩個實體組之間相似程度的數(shù)量指標(biāo)。這是進(jìn)行分類的基礎(chǔ)。度的數(shù)量指標(biāo)。這是進(jìn)行分類的基礎(chǔ)。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 實際上有兩類指標(biāo):一類是真正的相似實際上有兩類指標(biāo):一類是真正的相似性指標(biāo),它的數(shù)值大小直接反映兩成員間性指標(biāo),它的數(shù)值大小直接反映兩成員間的相似程度;而另一類應(yīng)該叫相異性指標(biāo),的相似程度;而另一類應(yīng)該叫相異性指標(biāo),其數(shù)值大小反映兩成員的差異程度。但是,其數(shù)值大小反映兩成員的差異程度。但是,從數(shù)學(xué)上講,相似和

19、相異是互補的概念,從數(shù)學(xué)上講,相似和相異是互補的概念,兩種指標(biāo)都同樣衡量相似性,區(qū)別僅在于兩種指標(biāo)都同樣衡量相似性,區(qū)別僅在于前者數(shù)值愈大表示越相似,而后者數(shù)值愈前者數(shù)值愈大表示越相似,而后者數(shù)值愈小表示越相似。所以我們無須嚴(yán)格區(qū)分這小表示越相似。所以我們無須嚴(yán)格區(qū)分這兩類指標(biāo),而統(tǒng)稱為相似。兩類指標(biāo),而統(tǒng)稱為相似。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 相似系數(shù)的種類繁多,比較常用的相似系相似系數(shù)的種類繁多,比較常用的相似系數(shù)按其計算的方法及適用的數(shù)據(jù)類型可以數(shù)按其計算的方法及適用的數(shù)據(jù)類型可以分為五類:關(guān)聯(lián)系數(shù),距離系數(shù),內(nèi)積系分為五類:關(guān)聯(lián)系數(shù),距離系數(shù),內(nèi)積系數(shù),信息系數(shù),概率系數(shù)。(見教材

20、)數(shù),信息系數(shù),概率系數(shù)。(見教材) 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析第四節(jié)第四節(jié) 判別分析判別分析 判別分析是根據(jù)所研究的個體的觀測指標(biāo)來判別分析是根據(jù)所研究的個體的觀測指標(biāo)來推斷該個體所屬類型的一種統(tǒng)計方法,在自推斷該個體所屬類型的一種統(tǒng)計方法,在自然科學(xué)和社會科學(xué)的研究中經(jīng)常會碰到這種然科學(xué)和社會科學(xué)的研究中經(jīng)常會碰到這種統(tǒng)計問題統(tǒng)計問題生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 例如醫(yī)生要根據(jù)某人的各項化驗指標(biāo)的結(jié)例如醫(yī)生要根據(jù)某人的各項化驗指標(biāo)的結(jié)果來判斷該人屬于什么病癥;在考古學(xué)中果來判斷該人屬于什么病癥;在考古學(xué)中需要根據(jù)人的身長、坐長、鼻骨的高度、需要根據(jù)人的身長、坐長、鼻骨的高度、深度

21、等特征判別人的種族。深度等特征判別人的種族。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析第五節(jié)第五節(jié) 聚類分析聚類分析 聚類分析起源于分類學(xué),分類學(xué)是一門古聚類分析起源于分類學(xué),分類學(xué)是一門古老的學(xué)科,從前人們進(jìn)行分類主要是依靠老的學(xué)科,從前人們進(jìn)行分類主要是依靠經(jīng)驗和專業(yè)知識,很少利用數(shù)學(xué)工具。隨經(jīng)驗和專業(yè)知識,很少利用數(shù)學(xué)工具。隨著科學(xué)技術(shù)的發(fā)展,特別是近代計算機的著科學(xué)技術(shù)的發(fā)展,特別是近代計算機的發(fā)展和普及,數(shù)學(xué)這個有力的工具逐漸被發(fā)展和普及,數(shù)學(xué)這個有力的工具逐漸被引進(jìn)到分類學(xué)中,形成了數(shù)值分類學(xué)。后引進(jìn)到分類學(xué)中,形成了數(shù)值分類學(xué)。后來隨著多元分析的引進(jìn),聚類分析又逐漸來隨著多元分析的引進(jìn),聚

22、類分析又逐漸從數(shù)值分類學(xué)中分離出來而形成一個相對從數(shù)值分類學(xué)中分離出來而形成一個相對獨立的分支。獨立的分支。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 聚類分析的目的是建立一定的準(zhǔn)則,將聚類分析的目的是建立一定的準(zhǔn)則,將“相似相似”的東西聚合成類,其基本思想是,的東西聚合成類,其基本思想是,從一批樣品的多個觀測指標(biāo)中,確定能度從一批樣品的多個觀測指標(biāo)中,確定能度量樣品之間或指標(biāo)之間相似程度量樣品之間或指標(biāo)之間相似程度(親疏關(guān)系親疏關(guān)系)的統(tǒng)計量,構(gòu)成一個對稱的相似性矩陣。的統(tǒng)計量,構(gòu)成一個對稱的相似性矩陣。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 在此基礎(chǔ)上進(jìn)一步計算出各樣品在此基礎(chǔ)上進(jìn)一步計算出各樣品(或變量

23、或變量)之之間或樣品組合之間的相似程度,按相似程間或樣品組合之間的相似程度,按相似程度的大小,把樣品度的大小,把樣品(或變量或變量)逐一歸并成類,逐一歸并成類,將關(guān)系密切的歸并聚集到一個小的分類單將關(guān)系密切的歸并聚集到一個小的分類單位,關(guān)系疏遠(yuǎn)的則聚集到一個大的分類單位,關(guān)系疏遠(yuǎn)的則聚集到一個大的分類單位,直到所有樣品位,直到所有樣品(或變量或變量)都聚集完畢、形都聚集完畢、形成一個親疏關(guān)系譜系圖成一個親疏關(guān)系譜系圖(聚類圖聚類圖)為止。為止。 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 1)系統(tǒng)聚類法(等級聚合分類)系統(tǒng)聚類法(等級聚合分類) 其基本作其基本作法已在上述

24、聚類基本思想中敘述了。法已在上述聚類基本思想中敘述了。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 2)分解法(等級分劃分類)它的程序恰好和分解法(等級分劃分類)它的程序恰好和系統(tǒng)聚類相反,首先將所有的樣品并在一系統(tǒng)聚類相反,首先將所有的樣品并在一類,然后用某種最優(yōu)準(zhǔn)則把它分成兩類,然后用某種最優(yōu)準(zhǔn)則把它分成兩類再用同樣的準(zhǔn)則將這兩類各自試圖分類再用同樣的準(zhǔn)則將這兩類各自試圖分成兩類,從中選一個使目標(biāo)函數(shù)較好者。成兩類,從中選一個使目標(biāo)函數(shù)較好者。這樣由兩類變成三類,如此下去,一直分這樣由兩類變成三類,如此下去,一直分類到每類只有一個樣品為止類到每類只有一個樣品為止(或用其它停止或用其它停止規(guī)則規(guī)則),將

25、上述分裂過程畫成圖。由圖便可,將上述分裂過程畫成圖。由圖便可求得各個類。求得各個類。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 3)動態(tài)聚類法動態(tài)聚類法 開始將開始將n個樣品粗糙地分成個樣品粗糙地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又一次地調(diào)整、直至不能調(diào)整時為一次又一次地調(diào)整、直至不能調(diào)整時為止此法非常類似于計算方法的迭代法止此法非常類似于計算方法的迭代法生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 4)有序樣品的聚類有序樣品的聚類 n個樣品按某種原因個樣品按某種原因(時間、地層深度時間、地層深度)排成次序。聚成的類要求排成次序。聚成的類要求必須是次序相鄰的樣品才能在一

26、類必須是次序相鄰的樣品才能在一類 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 5)預(yù)報)預(yù)報 聚類分析常可與回歸分析和判別聚類分析??膳c回歸分析和判別分析結(jié)合使用,如當(dāng)變量很多時,在進(jìn)行分析結(jié)合使用,如當(dāng)變量很多時,在進(jìn)行回歸分析之前,可以先對變量回歸分析之前,可以先對變量(指標(biāo)指標(biāo))進(jìn)行分進(jìn)行分類,再從每類中挑選一個最有代表性的變類,再從每類中挑選一個最有代表性的變量,參與回歸分析;也可在做判別分析之量,參與回歸分析;也可在做判別分析之前先進(jìn)行聚類再從個選出有代表性的變前先進(jìn)行聚類再從個選出有代表性的變量進(jìn)行判別,以彌補它們在預(yù)報中的不量進(jìn)行判別,以彌補它們在預(yù)報中的不足足 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)

27、計分析 6)模糊聚類模糊聚類 將模糊數(shù)學(xué)用在聚類分析中將模糊數(shù)學(xué)用在聚類分析中產(chǎn)生的方法就是模糊聚類產(chǎn)生的方法就是模糊聚類生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析第六節(jié)第六節(jié) 主成分分析(主分量分析)主成分分析(主分量分析) 主成分概念首先由主成分概念首先由K a r1parson在在1901年引進(jìn),不過當(dāng)時只對非隨機變量來討論年引進(jìn),不過當(dāng)時只對非隨機變量來討論的。的。1933年年Hotelling將這個概念推廣到隨機將這個概念推廣到隨機向量。主成分分析是將研究對象的多個相向量。主成分分析是將研究對象的多個相關(guān)變量關(guān)變量(指標(biāo)指標(biāo))化為少數(shù)幾個不相關(guān)的變量的化為少數(shù)幾個不相關(guān)的變量的一種多元統(tǒng)計方法

28、。這種將多個指標(biāo)化為一種多元統(tǒng)計方法。這種將多個指標(biāo)化為少數(shù)互相無關(guān)的綜合指標(biāo)的統(tǒng)計方法叫做少數(shù)互相無關(guān)的綜合指標(biāo)的統(tǒng)計方法叫做主成分分析或稱主分量分析。主成分分析或稱主分量分析。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 在多變量的分析中,為了盡可能完整地搜在多變量的分析中,為了盡可能完整地搜集信息,對每個樣品往往要測量許多項指集信息,對每個樣品往往要測量許多項指標(biāo),當(dāng)然這可以避免重要情報的遺漏,然標(biāo),當(dāng)然這可以避免重要情報的遺漏,然而從統(tǒng)計的角度來看,這些變量可能存在而從統(tǒng)計的角度來看,這些變量可能存在著很強的相關(guān)性,使得分析問題增加了復(fù)著很強的相關(guān)性,使得分析問題增加了復(fù)雜性因此自然想到用少數(shù)幾個

29、不相關(guān)雜性因此自然想到用少數(shù)幾個不相關(guān)的綜合變量來代替原來較多的相關(guān)變量的的綜合變量來代替原來較多的相關(guān)變量的研究。而且要求這些不相關(guān)的綜合變量能研究。而且要求這些不相關(guān)的綜合變量能夠反映原變量提供的大部分信息,從數(shù)學(xué)夠反映原變量提供的大部分信息,從數(shù)學(xué)的角度來看,這就是降維的思想。的角度來看,這就是降維的思想。 生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 例如,某人要做一件上衣要測量很多尺寸,例如,某人要做一件上衣要測量很多尺寸,如身長、袖長、胸圍、腰圍、肩寬、肩厚如身長、袖長、胸圍、腰圍、肩寬、肩厚等十幾項指標(biāo),但某服裝廠要生產(chǎn)一批新等十幾項指標(biāo),但某服裝廠要生產(chǎn)一批新型服裝絕不可能把尺寸的型號分得

30、過多、型服裝絕不可能把尺寸的型號分得過多、而是從多種指標(biāo)中綜合成幾個少數(shù)的綜合而是從多種指標(biāo)中綜合成幾個少數(shù)的綜合指標(biāo),做為分類的型號,利用主成分分析指標(biāo),做為分類的型號,利用主成分分析將十幾項指標(biāo)綜合成將十幾項指標(biāo)綜合成3項指標(biāo)一項是反映項指標(biāo)一項是反映長度的指標(biāo),一項是反映胖瘦的指標(biāo)長度的指標(biāo),一項是反映胖瘦的指標(biāo) 一一項是反映特體的指標(biāo)。項是反映特體的指標(biāo)。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 例例 為研究山楂園昆蟲群落演替,分為研究山楂園昆蟲群落演替,分16個時個時期對園中期對園中16種主要昆蟲進(jìn)行了調(diào)查,試進(jìn)種主要昆蟲進(jìn)行了調(diào)查,試進(jìn)行主成分分析。行主成分分析。生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析生物統(tǒng)計學(xué)必備之對多元的統(tǒng)計分析 從以上結(jié)果看出,引起山楂園昆蟲演替的從以上結(jié)果看出,引起山楂園昆蟲演替的主要昆蟲群落對第一主成分貢獻(xiàn)最大的是主要昆蟲群落對第一主成分貢獻(xiàn)最大的是梨網(wǎng)蝽,它的特征向量為梨網(wǎng)蝽,它的特征向量為-0.304,其次是草,其次是草履蚧,特征向量為履蚧,特征向量為0.295,再次是桃蚜,特,再次是桃蚜,特征向量為征向量為0.290,這三種昆蟲是第一主成分,這三種昆蟲是第一主成分的基本代表、它們均為刺吸法液類害蟲。的基本代表、它們均為刺吸法液類害蟲。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論