生物數(shù)據(jù)統(tǒng)計分析方法——第六章2_第1頁
生物數(shù)據(jù)統(tǒng)計分析方法——第六章2_第2頁
生物數(shù)據(jù)統(tǒng)計分析方法——第六章2_第3頁
生物數(shù)據(jù)統(tǒng)計分析方法——第六章2_第4頁
生物數(shù)據(jù)統(tǒng)計分析方法——第六章2_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、主要內(nèi)容主要內(nèi)容緒論緒論統(tǒng)計量、統(tǒng)計分布與統(tǒng)計比較統(tǒng)計量、統(tǒng)計分布與統(tǒng)計比較回歸與最小二乘分析回歸與最小二乘分析比較試驗設(shè)計與分析比較試驗設(shè)計與分析回歸試驗設(shè)計與分析回歸試驗設(shè)計與分析動態(tài)試驗指標(biāo)的統(tǒng)計推斷動態(tài)試驗指標(biāo)的統(tǒng)計推斷綜合試驗指標(biāo)的統(tǒng)計推斷綜合試驗指標(biāo)的統(tǒng)計推斷Cluster Analysis 一、一、 簡介簡介 聚類分析也是一種分類聚類分析也是一種分類技術(shù)。與多元分析的其他方法相技術(shù)。與多元分析的其他方法相比,該方法較為粗糙,理論上還比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大不完善,但應(yīng)用方面取得了很大成功。與回歸分析、判別分析一成功。與回歸分析、判別分析一起被稱為多

2、元分析的三大方法。起被稱為多元分析的三大方法。1. 聚類的目的 根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間親疏關(guān)系的統(tǒng)計量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長距離法、中間距離法、重心法),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個體或變量分為若干類。 同一種疾病(如肝炎),根據(jù)臨床表現(xiàn)等將病人分成若干類(甲、乙、丙、丁、戊型肝炎) 根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型 在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類根據(jù)分類的原理可將聚類分析分為: 系統(tǒng)聚類與快速聚類根據(jù)分類的對象可將聚類分析分為: 系統(tǒng)Q型與R型(即樣品聚類

3、clustering for individuals 與與指標(biāo)聚類clustering for variables)k 先采用聚類分析獲得各個個體的類別(classification );然后采用判別分析建立判別函數(shù),對新個體進(jìn)行類型識別((identification ) 假使每個樣品有每個樣品有p個變量,則個變量,則每個樣品都可以看成每個樣品都可以看成p維空間中的維空間中的一個點,一個點,n個樣品就是個樣品就是p維空間中維空間中的的n個點,則第個點,則第i樣品與第樣品與第j樣品之樣品之間的距離記為間的距離記為dij SPSS稱為BLOCK品品作用:消除量綱的影響作用:消除量綱的影響 優(yōu)點優(yōu)

4、點:馬氏距離既排除了各指標(biāo)間的相關(guān)性干擾,又消除了各指標(biāo)的量綱缺點缺點:樣品協(xié)方差矩陣不變不合理。 斜交空間21112)(1pkplklljlikjkirXXXXp可考慮變量間相關(guān)性問題 配合適用于分類變量,尤其是名義尺度變量52322),(),(2121221配合數(shù)不配合數(shù)配合數(shù)mmmdKFSMVXKTSQVX 研究樣品間的關(guān)系研究樣品間的關(guān)系常用常用距離,研究指標(biāo)間的關(guān)系距離,研究指標(biāo)間的關(guān)系常常用用相似系數(shù)。相似系數(shù)。 相似系數(shù)常用的有:夾角相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)余弦與相關(guān)系數(shù)1.1.最短距離法最短距離法(single linkage) (single linkage) 2

5、.2.最長距離法最長距離法(complete linkage) (complete linkage) 3.3.中間距離法中間距離法(median method)(median method)4.4.類平均法類平均法(average linkage)(average linkage)5.5.可變類平均法可變類平均法(flexible-beta method)(flexible-beta method)6.6.重心法重心法(centroid method)(centroid method)7.Ward7.Ward離差平方和法離差平方和法(Wards minimum-(Wards minimum-v

6、ariance method)variance method)8.Mcquitty8.Mcquitty的相似分析法的相似分析法(Mcquittys (Mcquittys similarity analysis)similarity analysis)9.9.最大似然估計法最大似然估計法(EML)(EML)10.10.密度估計密度估計(density linkage)(density linkage)11.11.兩階段密度估計法兩階段密度估計法(two-stage (two-stage density linkage)density linkage)等。等。 B2A2 * B1 A1 * * B

7、3 *樣品間樣品間:歐氏距離類類間類類間:兩類間兩兩樣品距離最短。即圖中樣品A2和B1之間的距離 ),min(LJKJMJDDD6個民族的粗死亡率與期望壽命 B2A2 * B1 A1 * * B3 *樣品間樣品間:歐氏距離類類間類類間:兩類間樣品兩兩距離最長。即圖中樣品A2和B3之間的距離 ),max(LJKJMJDDD最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離KLJM2222412121KLLJKJMJDDDD222221KLLJKJMJDDDD之間的數(shù)通常情況下取01, 1SPSS作為默認(rèn)方法,稱為 between-groups linkage KLJM為

8、各類中所含樣品數(shù)為歐氏距離的平方其中.2.222nDDnnDnnDLJMLKJMKMJ類平均法的變型 KLJM25. 0; 1)1 (2222軟件預(yù)置為SASDDnnDnnDKLLJMLKJMKMJ B2A2 * B1 A1 * * B3 *類類間的距離用各自類類間的距離用各自重心間的距離表示重心間的距離表示 )(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中間距離多 先將n個樣品各自成一類,然后每次每縮小一類,每縮小一類離差平方和就要增加,選擇使離差平方和增加(SSMSSKSSL)最小的兩類合并,直至所有的樣品歸為一類為止。2222KLMJJLJMJL

9、JKJMJKJMJDnnnDnnnnDnnnnD 以上聚類方法的計算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:222222LJKJKLLJLKJKMJDDDDDD 單調(diào)性 中間距離法、重心法不具有單調(diào)性 空間的濃縮與擴(kuò)張 不同聚類法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類平均比較擴(kuò)張;類平均法類平均法比較適中。 幾種聚類方法獲得的結(jié)果不一定相同 指標(biāo)聚類采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。 221ijijrd 樣本量很大,用系統(tǒng)聚類法樣本量很大,用系統(tǒng)聚類法計算的工計算的工作量

10、作量極大,作出的極大,作出的樹狀圖樹狀圖也十分復(fù)雜也十分復(fù)雜, , 不不便于分析便于分析 原理選擇初始凝聚點根據(jù)歐氏距離將每個樣品歸類各類的重心代替初始凝聚點根據(jù)歐氏距離將每個樣品歸類, 直至分類達(dá)到穩(wěn)定初始凝聚點initial cluster seeds ;cluster centers自動選擇 必須給出允許分類的最大個數(shù)k( SASSAS中用中用MAXCLUSTERS=k(或MAXC=k) )憑經(jīng)驗選擇 以初始凝聚點建立一個數(shù)據(jù)文件,在SAS的FASTCLUS過程的SEED=選擇項中輸入該數(shù)據(jù)文件 原理與以上聚類法類似原理與以上聚類法類似, , 只是將只是將標(biāo)準(zhǔn)化后的變量視為標(biāo)準(zhǔn)化后的變量

11、視為“個體個體”,變,變量間的相關(guān)系數(shù)描述量間的相關(guān)系數(shù)描述“個體個體”間的間的相似程度。相似程度。 SASSAS中采用中采用VARCLUSVARCLUS過程過程。與判別分析的區(qū)別(作用,數(shù)據(jù)要求?)與判別分析的區(qū)別(作用,數(shù)據(jù)要求?)聚類分析是一種探索性技術(shù),對于同一問聚類分析是一種探索性技術(shù),對于同一問題,可獲得多種結(jié)果,解釋需要結(jié)合專業(yè)知題,可獲得多種結(jié)果,解釋需要結(jié)合專業(yè)知識識樣品量大可采用快速聚類方法樣品量大可采用快速聚類方法變量的形式?距離與相似系數(shù)?變量的形式?距離與相似系數(shù)?系統(tǒng)聚類常用方法?系統(tǒng)聚類常用方法?分類數(shù)的確定分類數(shù)的確定 專業(yè)知識專業(yè)知識聚類方法的選擇聚類方法的選

12、擇試用多種方法,系統(tǒng)聚類與快速聚類相結(jié)合試用多種方法,系統(tǒng)聚類與快速聚類相結(jié)合聚類進(jìn)度表相似矩陣樣品或變量的分類情況樹狀結(jié)構(gòu)圖冰柱圖冰柱的方向聚類方法標(biāo)準(zhǔn)化變換親疏關(guān)系指標(biāo)將分類結(jié)果存入數(shù)據(jù)文件中讀寫凝聚點人為固定分類數(shù)ANOVA表,初始凝聚點等樣品聚類樣品聚類:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSITY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD);ID national;PROC TREE HORIZONTAL; ID national;變量聚類變量聚類:PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4;快速聚類:快速聚類:PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national;資料預(yù)處理:資料預(yù)處理:PROC ACECLUS ;(ACECLUS (App

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論