




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、模式識別與分類導言數(shù)據(jù)預處理無監(jiān)督方法有監(jiān)督方法本章作業(yè)模式識別與分類導言 Clustering/Classification 統(tǒng)稱 如下問題 人眼識別物 中醫(yī)看舌苔/脈搏 圖譜辨別化合物 低維與高維數(shù)據(jù) 一次觀察的矢量表示tnxxx21xn為空間維數(shù),變量數(shù)變量即特征各特征類型/量綱/大小相差大模式識別與分類數(shù)據(jù)預處理 值域調(diào)整range scalingmin,max,min,*kkkikikxxxxx10*ikx 自標度化 Autoscalingkkikiksxxx*均值0方差1模長1n模式識別與分類數(shù)據(jù)預處理 標準化 Normalizationkikikxxx*模長為1niikikikx
2、xx1*色譜面積歸1)max(*ikikikxxx質(zhì)譜最大為1模式識別與分類數(shù)據(jù)預處理 變換法ikikxx*原變量相加/減/除等ikikxxlg* 組合法模式識別與分類數(shù)據(jù)預處理 特征的選擇偏差權重法s大的變量更重要Fisher比率法F大的變量更重要21221iiiiissxxF模式識別與分類數(shù)據(jù)預處理協(xié)方差矩陣C與相關矩陣R對于)(pnXn為對象數(shù),p為特征數(shù)方差j=1,p 21211nijijijxxnsnikikjijxxxxnkj111),cov(協(xié)方差j,k=1,p;jk 模式識別與分類數(shù)據(jù)預處理方差-協(xié)方差矩陣,簡稱協(xié)方差矩陣如下:2222211)2 ,cov() 1 ,cov()
3、, 2cov() 1 , 2cov(), 1cov()2 , 1cov(ppspppspsC對稱矩陣模式識別與分類數(shù)據(jù)預處理相關矩陣如下:11121212112pppprrrrrrR其中ikijjksskjr),cov(但對于Autoscaling后的數(shù)據(jù),s=1。C即為R。模式識別與分類主成分分析PCA因子分析FA聚類分析clustering無監(jiān)督方法模式識別與分類PCATTLX 得分score載荷loading d為主成分數(shù) 模式識別與分類PCA投影判別法 XLT 數(shù)據(jù)重構(gòu)組成互不相關的新變量 取較少的主成分數(shù)(常為2),完成分類-1.5-0.50.51.52.5-3-2-10123258
4、491367模式識別與分類PCA實例1 不同嫌疑人頭發(fā)中元素的含量(g/g) 樣品CuMnClBrI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.80.42 86743.1 1.5 98.50.25 16205.2 6.2 原始數(shù)據(jù)原始數(shù)據(jù)X(95)autoscaling計算計算相關矩陣相關矩陣計算計算特征值特征值返回模式識別
5、與分類方差百分數(shù)主成分數(shù)的確定piidiies112指定 ,如90% 相應的d2esPCA實例1 頭發(fā)樣品中的特征值與方差 成分數(shù) 特征值 方差% 累計方差% 1 3.352 67.05 67.05 2 1.182 23.65 90.70 3 0.285 5.70 96.40 4 0.135 2.70 99.10 5 0.045 0.90 100.00特征值1對于相關矩陣, 1的成分為主成分ppii1Scree檢驗nPC在2-3間斜率下降 因此d=2合適01234012345nPC模式識別與分類得分圖主成分圖形解釋PCA實例1-1.5-0.50.51.52.5-3-2-10123t1t2258
6、491367-1.5-0.50.51.52.5-3-2-10123t1t22584913673個聚類分屬三人t1對t2作圖t1最重要模式識別與分類主成分圖形解釋PCA實例1載荷圖-1-0.8-0.6-0.4-0.200.20.40.60.8-0.6-0.4-0.200.20.40.6l1l2CuMnBrClIl1對l2作圖特征在主成分上的投影各變量的相關信息夾角越小,相關性越高高度相關的特征取1即可載荷大小是重要性的度量位于原點的載荷不重要金屬間的相關性大于鹵素間的Cu與Cl反性相關l1最重要,距原點距離越大,該特征權重越大,Cu模式識別與分類主成分圖形解釋PCA實例1 相似系數(shù)或相關系數(shù)表
7、CuCu 1.000 MnMn 0.697 1.000 ClCl -0.950 -0.692 1.000 BrBr -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似系數(shù))(cos12121nkkjknkkiknkkjkikijxxxx相關系數(shù))()()(21211nkkjjknkkiiknkkjjkiikijxxxxxxxxrBr/I接近正交Cu/Cl負相關1:完全相同0:完全正交自標度化的數(shù)據(jù)cos=r模式識別與分類得分圖主成分圖形解釋PCA實例1-1.5-0.50.51.52.5-3-2-10123t1t2258491367
8、特征的選擇5個全取-1012-2-1012t1t2取Cu/Br/I仍能分類效果略差-1-0.500.51-2-1012t1t2取Cu/Mn/Cl分類效果差l2無效果-0.10.1-2-10123個,僅1個12.57,0.38,0.05一維投影結(jié)果原始數(shù)據(jù)模式識別與分類主成分圖形解釋PCA實例1雙重圖biplot-1012-2.5-1.5-0.50.51.52.514982516 7BrClICuMnt1各元素均有貢獻t2由Br和I表征Cu/Mn/Cl/I將對象聚為2組Br將對象聚為另2組模式識別與分類PCA實例1應用示例應用示例煙葉硅烷化色譜煙葉硅烷化色譜 遼寧鳳城煙葉不同遼寧鳳城煙葉不同部位
9、煙葉的區(qū)分部位煙葉的區(qū)分下部上部中部模式識別與分類FAEFLXT 用少數(shù)幾個通用因子描述矩陣中的特征 抽象因子需經(jīng)旋轉(zhuǎn)變換成實因子TTFAF包含d個因子的特征參數(shù),各因子對應1個起因L與對應因子相關的載荷分數(shù)E由剩余p-d個和通用因子無關的特殊因子構(gòu)成,如噪聲因子模式識別與分類FATFLX 目標轉(zhuǎn)換因子分析Target Transformation FA*T1TLLL)(LT變換矩陣*LLT 抽象載荷目標LTL 預測目標均值相對偏差relative deviation估計兩者的一致性pjjpjjjlllrd1*1*模式識別與分類FA實例TTFA2452652853053256.47.814.8
10、33.370.941.786.584.3352.6956.112.8920.736.6161.5899.30108.4326.9239.036.7173.3377.8997.2639.3728.676.8274.763.9282.1647.1520.066.9218.9236.9539.8225.5810.497.079.0412.0710.586.543.23HPLC-DAD數(shù)據(jù)(mA)tR/minwavelength/nm6.46.66.87.0245285325050100150200250300多環(huán)芳烴HPLC-DAD數(shù)據(jù)有3個重要因子模式識別與分類多環(huán)芳烴HPLC-DAD數(shù)據(jù)*XFT
11、L-1.476-1.307-1.295-1.285-1.174-0.6400.088-0.017-0.5810.2220.2051.4471.2500.2441.5710.3340.8230.9800.9770.8071.4420.4160.6141.4350.1730.832-0.371-0.4120.165-0.532-0.697-1.096-1.120-0.955-1.067-2.904-0.3400.210-0.370-0.815-0.0662.178-1.192-0.2481.783-0.1700.3831.7581.2690.121-0.2191.074-0.329-2.2270.
12、174-0.0710.3850.4730.4840.4400.4470.662-0.309-0.2110.455-0.464-0.628-0.1920.2180.699-0.181FA實例TTFA已知4物的純光譜但僅3個主因子F補一列1111111模式識別與分類多環(huán)芳烴HPLC-DAD數(shù)據(jù)FA實例TTFA*T1TLLL)(LT111.2112.6282.128038.287.276.42.2552.569.412.21110.633.25.11.314.7256.95.5*L283.331545.91126.4-58.497102.72120.36217.71172.223.665-106.1
13、3-223.13-169.66-63.573-628.81-435.2476.663 LTL111.23112.88282.74274.6138.03685.85873.30428.34552.66370.73415.276-24.929110.5432.7193.991310.64514.72625.2127.38911.377BkFBbF苝蒽BkFBbF苝蒽245111.2112.6282.1280111.2112.9282.7274.626538.287.276.42.2538.085.973.328.328652.569.412.2152.770.715.3-24.9305110.63
14、3.25.11.3110.532.74.010.632514.7256.95.514.725.27.41.4KnownPredicted0100200300240260280300320wavelength/nmabsorbance/mA-5050150250240260280300320wavelength/nmabsorbance/mA存在不存在模式識別與分類聚類分析 無監(jiān)督學習方法 根據(jù)相似性度量,物以類聚 分類方法是把未知對象分配到已存在類中聚類分析步驟n個樣本個樣本n類類計算距離計算距離最近最近的的2類類合并合并 繼續(xù)合并繼續(xù)合并最近的最近的2類類經(jīng)經(jīng)n-1次合并次合并最后成最后成1
15、類類模式識別與分類聚類分析距離與相似性度量的方法明氏Minkowski距離pKkpjkikijxxd11歐氏Euclidean距離2p曼哈頓Manhattan距離city-block距離1p模式識別與分類聚類分析距離與相似性度量的方法馬氏Mahalanobis距離)()(12jiTjiijDxxCxx基于協(xié)方差矩陣C的向量運算基于馬氏距離的相似性量度)max(1ijijijddS完全相似 Sij=1完全不相似 Sij=0馬氏距離可避免特征向量的相關性引起的失真無需對數(shù)據(jù)進行調(diào)整模式識別與分類聚類分析實例6個血清樣本的分級聚類mg/100ml對象鈣磷酸鹽18.005.5028.255.7538.
16、706.30410.003.00510.254.0069.753.50血清樣本的鈣和磷酸鹽濃度對象12345610.00020.3540.3540.00031.6030.7110.00043.2023.2603.3470.00052.7042.6582.7741.0310.00062.6582.7042.9900.5590.7070.000第一次距離對象1、2距離最短,聚為新對象1*設其距離為0與其余各對象用平均法或新距離221*1iiiddd模式識別與分類聚類分析實例6個血清樣本的分級聚類對象1*345610.00030.8870.00043.2313.3470.00052.6812.774
17、1.0310.00062.6812.9900.5590.5590.7070.000第二次距離4,6并并4*對象1*34*51*0.00030.8870.0004*2.9563.1690.00052.6812.7740.8690.8690.000第三次距離4*,5并5*對象1*35*1*0.00030.8870.8870.0005*2.8192.9720.000第四次距離對象3*5*3*0.0005*2.8952.8950.000第五次距離1*,3并3*模式識別與分類聚類分析實例6個血清樣本的分級聚類1231234651*3*4*5*歐氏距離6個血清樣本實際上可分為兩類模式識別與分類聚類分析A、
18、B聚后新距離的算法加權均連weighted average linkage2BiAiABiddd單連法(最近距離)single linkage),min(BiAiABiddd全連法(最遠距離)complete linkage),max(BiAiABiddd其他方法模式識別與分類線性學習機LLMK最近鄰法KFASIMCA法有監(jiān)督方法模式識別與分類LLM111111111222222221x2xw判別面12以分類(疾病判斷)為例12存在一判別面,用垂直的法線(權)矢量w表示w 與類1中任一樣本矢量的夾角 ,與類2中 901w902線性判別函數(shù)s(標量)pjjjxws1xwcosxw s ,s0 ,
19、s0901902模式識別與分類LLM步驟已知樣本作訓練得法線矢量w未知樣本計算s并預測分類初值w,可隨機確定第第1個已知樣本個已知樣本計算計算s 不符xwwcoldnew222jxsscTxx下一個樣本計算下一個樣本計算s繼續(xù)調(diào)整w 模式識別與分類LLM實例數(shù)據(jù)初值11111w樣品v1v2v3v4v5歸類 1-1.310.800.78-0.70-0.6112-0.630.751.94-0.61-0.42130.701.481.04-0.66-0.7314-0.970.870.01-0.64-0.6115-1.420.630.78-0.65-0.7116-1.311.50-0.63-0.70-0
20、.5817-0.971.090.91-0.70-0.5718-0.280.581.43-0.69-0.52190.74-1.10-0.890.51-0.212100.170.000.660.041.542110.06-0.73-0.631.01-0.432122.56-0.300.27-0.060.092131.19-1.29-1.270.20-0.60214-0.06-0.78-0.120.132.152150.17-1.19-1.140.660.672160.06-1.46-1.143.580.52217-0.740.310.40-0.48-0.651180.400.700.01-0.70
21、-0.641190.51-0.30-0.630.292.602200.85-1.53-1.780.17-0.242甲狀腺病人與正常人5項指標及歸類模式識別與分類LLM實例修正w不修正004.111xws須修正003.122xws2xwwc2222xxsc16. 124. 124. 071. 025. 1以后還需修正1次,最終32. 138. 102. 039. 010. 1w判別模式識別與分類LLM實例程序clear;close all;Y= load(E:bkjshxjiazx.txt);Y(:,1)=; n,p = size(Y); cluster = Y(:,p);cluster = cluster*(-2)+3*ones(n,1); %let symbol of first cluster=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZHHX 004-2024 粉苞酸腳桿盆花生產(chǎn)技術規(guī)范
- 二零二五年度員工宿舍入住與退宿手續(xù)協(xié)議
- 2025年度水利工程監(jiān)理工程師合同管理與可持續(xù)發(fā)展
- 二零二五年度商鋪經(jīng)營權放棄及轉(zhuǎn)讓協(xié)議書
- 二零二五年度酒吧租賃合同書
- 2025年度潤滑油行業(yè)年度銷售排行榜合作合同
- 2025年度機關單位食堂餐飲培訓與咨詢服務合同
- 二零二五年度夫妻婚內(nèi)財產(chǎn)約定及家庭財務顧問服務協(xié)議
- 二零二五年度智慧城市項目實施團隊勞動合同
- 二零二五年度企業(yè)稅收籌劃與稅務籌劃培訓與實施合同
- 保險公司客戶服務質(zhì)量提升手冊
- 成語故事-一諾千金-課件
- 鋼筋工安全操作規(guī)程
- 煤礦安全管理人員考試題庫與答案(G卷)
- SMP-07-008-00 印刷性包裝材料管理規(guī)程
- 旅游景區(qū)物業(yè)管理服務方案
- 山東省濟南市2024年中考數(shù)學試卷【附真題答案】
- 孤殘兒童護理員技能鑒定考試題庫(含答案)
- DL∕T 5136-2012 火力發(fā)電廠、變電站二次接線設計技術規(guī)程
- 娛樂場所安全承諾聲明
- 光伏項目施工總進度計劃表(含三級)
評論
0/150
提交評論