版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Y染色體非重組區(qū)單倍型系統(tǒng)樹染色體非重組區(qū)單倍型系統(tǒng)樹2019,Stanford University,Peter A. Underhill npnnppyyyyyyyyy212222111211p個(gè)特征目的、變量個(gè)特征目的、變量 n個(gè)個(gè)樣樣本本 nnnnnnccccccccc212222111211樣本類似矩陣樣本類似矩陣 ppppppsssssssss212222111211特征類似矩陣特征類似矩陣如何計(jì)算類似矩陣的矩陣元?如何計(jì)算類似矩陣的矩陣元?)(21 ipiiix,x,xX)(21 jpjjjx,x,xX對(duì)于樣本中的兩個(gè)同維向量:對(duì)于樣本中的兩個(gè)同維向量: 1 、數(shù)據(jù)的變換處置、數(shù)
2、據(jù)的變換處置 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。數(shù)據(jù)集合中其它數(shù)據(jù)的新值。 (1) 中心化變換中心化變換中心化變換是一種坐標(biāo)軸平移處置方法,每列中心化變換是一種坐標(biāo)軸平移處置方法,每列數(shù)據(jù)之和為數(shù)據(jù)之和為0,這是一種很方便地計(jì)算方差與協(xié),這是一種很方便地計(jì)算方差與協(xié)方差的變換。方差的變換。jijijxxx *), 3 , 2 , 1;, 3 , 2 , 1(pjni 2極差規(guī)格化變換極
3、差規(guī)格化變換jijn ,iij*ijRxxx)(min21 ), 3 , 2 , 1;, 3 , 2 , 1(pjni )(min)(max2121ijn ,iijn ,ijxxR 10* ijx經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為最大數(shù)值為1,最小數(shù)值為,最小數(shù)值為0,其他數(shù)據(jù)取值均在,其他數(shù)據(jù)取值均在01之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。同的變量之間的比較。3規(guī)范化變換規(guī)范化變換jjij*ijsxxx ), 3 , 2 , 1;, 3 , 2 , 1(pj
4、ni nijijxxnsj122)(11經(jīng)過規(guī)范化變換處置后,每個(gè)變量即數(shù)據(jù)矩陣中每經(jīng)過規(guī)范化變換處置后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為列數(shù)據(jù)的平均值為0,方差為,方差為1,且也不再具有量綱,且也不再具有量綱,同樣也便于不同變量之間的比較。同樣也便于不同變量之間的比較。 4對(duì)數(shù)變換對(duì)數(shù)變換 對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:據(jù)的對(duì)數(shù)值作為變換后的新值。即: )log(*ijijxx 5指數(shù)變換指數(shù)變換 ijxijex *用來衡量樣本間或特征間類似性關(guān)系的用來衡量樣本間或特征間類似性關(guān)系的兩種系數(shù):兩種系數(shù):
5、1 類似系數(shù)類似系數(shù) 2 相異系數(shù)相異系數(shù)類似系數(shù):衡量全部樣本或全部變量中任何類似系數(shù):衡量全部樣本或全部變量中任何兩部分類似程度的目的。兩部分類似程度的目的。 性質(zhì)越接近的變量或樣品,它們的類似系數(shù)性質(zhì)越接近的變量或樣品,它們的類似系數(shù)越接近于越接近于1或或 l ;而彼此無關(guān)的變量或樣品;而彼此無關(guān)的變量或樣品它們的類似系數(shù)那么越接近于它們的類似系數(shù)那么越接近于0,類似的為,類似的為一類,不類似的為不同類。一類,不類似的為不同類。 pajaiaijxxQ11內(nèi)積系數(shù):內(nèi)積系數(shù):適用范圍:適用范圍: 量綱一樣量綱一樣 數(shù)據(jù)相差不大數(shù)據(jù)相差不大1234567123456789Character
6、istic 2Characteristic 1ABC結(jié)論:夾角越小,結(jié)論:夾角越小,cos的值越接近的值越接近1,兩向量越類似。,兩向量越類似。jjiiijpkpkjkikpkjkikijQQQxxxx cos11221 2夾角余弦:夾角余弦:)(1112jjkpkiikijxxxxn jjiiijpkpkjjkiikpkjjkiikijSSSSSSxxxxxxxxr 11221)()()( pkkjkikijsxxpc122)(43exp11 nlklkkxxns122)(11為第為第k個(gè)變量的方差個(gè)變量的方差 2ks指數(shù)類似系數(shù)消除了不同變量的單位不同的影響,指數(shù)類似系數(shù)消除了不同變量的單
7、位不同的影響,也消除了不同變量的本身變異不同的影響。也消除了不同變量的本身變異不同的影響。 gpkgjkikijxxMd11)|()( ),(21ipiiixxxX),(21 jpjjjxxxXg = 1,絕對(duì)值間隔,絕對(duì)值間隔g = 2,歐氏間隔,歐氏間隔g = ,切比雪夫間隔,切比雪夫間隔(1) 明氏間隔明氏間隔(Minkowski明考夫斯基明考夫斯基distance)(2)杰氏間隔杰氏間隔 這是杰斐瑞和馬突斯塔這是杰斐瑞和馬突斯塔(Jffreys & Matusita)定義的一種間隔:定義的一種間隔:2112)()( pkjkikijxxJd(3)蘭氏間隔蘭氏間隔 這是蘭思和維廉
8、姆斯這是蘭思和維廉姆斯(Lance & Williams)所給定的一種間隔:所給定的一種間隔: 這是一個(gè)本身規(guī)范化的量,由于它對(duì)大這是一個(gè)本身規(guī)范化的量,由于它對(duì)大的奇特值不敏感,這樣使得它特別適宜于的奇特值不敏感,這樣使得它特別適宜于高度偏倚的數(shù)據(jù)。沒有思索目的之間的相高度偏倚的數(shù)據(jù)。沒有思索目的之間的相關(guān)性。關(guān)性。 pkjkikjkikijxxxxLd1)()()(1jijiijXXCXXd ppppppcccccccccC212222111211 najajiaiijxxxxnc1)(11,這里這里在實(shí)際運(yùn)用中,假設(shè)總體協(xié)方差矩陣未知,那么可在實(shí)際運(yùn)用中,假設(shè)總體協(xié)方差矩陣未知,
9、那么可用樣本協(xié)方差矩陣作為估計(jì)替代計(jì)算。用樣本協(xié)方差矩陣作為估計(jì)替代計(jì)算。優(yōu)點(diǎn):優(yōu)點(diǎn): 思索了觀測(cè)變量之間的相關(guān)性。思索了觀測(cè)變量之間的相關(guān)性。消除了各個(gè)觀測(cè)目的不同量綱的影響。消除了各個(gè)觀測(cè)目的不同量綱的影響。 留意:留意: 假設(shè)各變量之間相互獨(dú)立,觀測(cè)變量的協(xié)假設(shè)各變量之間相互獨(dú)立,觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣。方差矩陣是對(duì)角矩陣。 在聚類時(shí)用各個(gè)類的樣本來計(jì)算各自的協(xié)在聚類時(shí)用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣。方差矩陣。21112)(1 plpklkjkikjlilijrxxxxpd pkjjkiikijxxxxd12ixjx這里這里 和和 分別是第分別是第 i 樣本和第樣本和第 j
10、 樣樣本向量的模。本向量的模。 pkjkikjkikijxxxxpd121 pkjkikjkikijxxxxzpd11z為兩事例同一變量的察看值都是為兩事例同一變量的察看值都是0的變量數(shù)的變量數(shù) 2122111ppppppdij p1:兩樣本的察看值一樣的變量數(shù)。:兩樣本的察看值一樣的變量數(shù)。p2:兩事例的察看值不同的變量數(shù)。:兩事例的察看值不同的變量數(shù)。p1p2p:變量總數(shù)。:變量總數(shù)。不匹配系數(shù):兩事例察看值不同的變量占總變量數(shù)不匹配系數(shù):兩事例察看值不同的變量占總變量數(shù)的比重。普通用于目的變量。的比重。普通用于目的變量。 性質(zhì):性質(zhì):;0成成立立和和對(duì)對(duì)一一切切的的jidij ;0成成立
11、立當(dāng)當(dāng)且且僅僅當(dāng)當(dāng)jidij ;成成立立和和對(duì)對(duì)一一切切的的jiddjiij .成成立立和和對(duì)對(duì)于于一一切切的的jidddkjikij 2、選擇、選擇 D(0) 表中最小的非零數(shù),無妨假設(shè)表中最小的非零數(shù),無妨假設(shè)dpq, 于是將于是將Gp和和Gq合并為一類,記合并為一類,記Gr=Gp , Gq。 3、利用遞推公式計(jì)算新類與其它類之間的間隔。、利用遞推公式計(jì)算新類與其它類之間的間隔。 分別刪除分別刪除D(0)表的第表的第p,q行和第行和第p,q列,并列,并 新增一行和一列添上的結(jié)果,產(chǎn)生新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。表。2nC一聚類方法一聚類方法pGqG1G2GnG1G2GnG12
12、dnd121d1nd2ndnd2 1、最長(zhǎng)間隔法、最長(zhǎng)間隔法 x11x2112dmaxqpijpqGjGidD ,:定定義義距距離離:qplDDDqlplrl,遞遞推推公公式式: max采用絕對(duì)間隔計(jì)算間隔矩陣:采用絕對(duì)間隔計(jì)算間隔矩陣:)0(D1G2G3G4G5G1G2G3G4G5G 0 10 2.51.50 653.50 875.520 【例】【例】 設(shè)抽取五個(gè)樣品,每個(gè)樣品只需設(shè)抽取五個(gè)樣品,每個(gè)樣品只需一個(gè)變量,它們是一個(gè)變量,它們是1,2,3.5,7,9。621GGG被被聚聚為為新新類類與與 0 2.50 63.50 85.5203G5G6G4G5G6G3G4G)1(D1G2G3G4
13、G5G1G2G3G4G5G 0 10 2.51.50 653.50 875.520)0(D 0 2.50 63.50 85.5203G5G6G4G5G6G3G4G621GGG被被聚聚為為新新類類與與)1(D754GGG被聚為新類被聚為新類與與3G6G6G3G7G7G)2(D836GGG被聚為新類被聚為新類與與8G7G7G)3(D8G012345678 G8G7G6G5G4G3G2G1 2、類平均法、類平均法兩類間樣品的絕對(duì)間隔的平均數(shù)。兩類間樣品的絕對(duì)間隔的平均數(shù)。 pqGiGjijqppqdnnD1qpkqqkpprknnDnDnD 遞遞推推公公式式:兩類間樣品的平方間隔的平均數(shù)。兩類間樣品
14、的平方間隔的平均數(shù)。 pqGiGjijqppqdnnD221qpkqqkpprknnDnDnD 222遞遞推推公公式式: x11x21【例】:采用絕對(duì)間隔平均計(jì)算間隔矩陣:【例】:采用絕對(duì)間隔平均計(jì)算間隔矩陣:d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5Distance(C,DE)=(18+20)/2=19a=b=22/2=11f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75a=b=22/2=11c=19/2=9.5g=c-d=9.5-5=4.52G3G4G 0 10 6.252.250 362512.250 644930.25401G
15、2G3G5G1G4G5G2)0(D【例】:采用平方間隔平均計(jì)算間隔矩陣:【例】:采用平方間隔平均計(jì)算間隔矩陣: 0 4.250 30.512.250 56.530.25403G5G6G4G5G6G3G4G621GGG被被聚聚為為新新類類與與2)1(D2G3G4G 0 10 6.252.250 362512.250 644930.25401G2G3G5G1G4G5G2)0(D(6.25+2.25)/2(36+25)/2(64+49)/2 0 4.250 30.512.250 56.530.25403G5G6G4G5G6G3G4G621GGG被被聚聚為為新新類類與與2)1(D754GGG被聚為新類
16、被聚為新類與與3G6G6G3G7G7G2)2(D(12.25+30.25)/2(30.5+56.5)/222222pqrqpqkrqpkrpkrDnnnDnnDnnD 遞推公式:遞推公式: ppinGxippxnx1兩兩樣樣本本的的重重心心分分別別為為: qqinGxiqqxnx1)()(22qpqpxxpqxxxxdDqp 定定義義距距離離:4、 最短間隔法最短間隔法 qjpiijpqGxGxdD ,:定定義義距距離離: min qplDDDqlplrl,遞遞推推公公式式: min tnitittittqprpqxxxxSSSSSSSSD12)()( 定定義義距距離離:2222 pqlrlqllrlqpllrlprlDnnnDnnnnDnnnnD 遞遞推推公公式式:以上聚類方法的計(jì)算步驟完全一樣,僅類與類之間的間以上聚類方法的計(jì)算步驟完全一樣,僅類與類之間的間隔定義不同。隔定義不同。Lance和和Williams于于1967年將其一致為:年將其一致為:222222LJKJKLLJLKJKMJDDDDDD 三聚類方法選擇三聚類方法選擇 最短間隔法比較簡(jiǎn)單,運(yùn)用較多,但該方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工安全基礎(chǔ)知識(shí)教育健康與安全手冊(cè)
- 急性心律失常的治療
- 信息化技術(shù)在倉(cāng)庫(kù)管理中的應(yīng)用計(jì)劃
- 規(guī)劃職業(yè)發(fā)展的長(zhǎng)遠(yuǎn)藍(lán)圖計(jì)劃
- 成本中心的建立與管理培訓(xùn)
- 如何利用數(shù)據(jù)分析優(yōu)化品牌策略計(jì)劃
- 城市綠化工程設(shè)計(jì)招標(biāo)合同三篇
- 鄉(xiāng)村振興與社會(huì)發(fā)展策略計(jì)劃
- 學(xué)生活動(dòng)策劃與預(yù)算管理計(jì)劃
- 試驗(yàn)、檢驗(yàn)計(jì)劃
- 中國(guó)經(jīng)濟(jì)增長(zhǎng)現(xiàn)狀及未來前景分析報(bào)告
- 龍井營(yíng)銷方案
- 非哺乳期乳腺炎診治專家共識(shí)
- 2024初中數(shù)學(xué)課程標(biāo)準(zhǔn)測(cè)試題(含答案)精華版
- 財(cái)務(wù)管理大學(xué)生的職業(yè)生涯規(guī)劃
- 五年級(jí)我學(xué)會(huì)了什么的作文500字
- 農(nóng)貿(mào)市場(chǎng)規(guī)劃設(shè)計(jì)方案
- 中醫(yī)日間病房建設(shè)方案
- 廣東工業(yè)大學(xué)技術(shù)創(chuàng)新方法TRIZ理論及應(yīng)用課程報(bào)告
- 《專利及專利申請(qǐng)》課件
- 2024年美白護(hù)膚品項(xiàng)目營(yíng)銷策劃方案
評(píng)論
0/150
提交評(píng)論