




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、判別分析方法(Discriminant analysis)Discriminant analysis判別分析 用于判別樣本所屬類型的統(tǒng)計分析方法 基因識別:根據(jù)某一DNA序列的核苷酸組分、信號特征等指標,判別是否編碼蛋白序列? 醫(yī)學診斷:某一病人肺部存在陰影,判別: 肺結核?良性腫瘤?肺癌? 人類考古學:根據(jù)頭蓋骨的特征,判別:民族、性別、生活年代? 股票分析預測: 氣象分析預測: 自然災害分析預測: Discriminant analysis判別分析問題 設有k個m維的總體G1, G2, , Gk, (1). 它們的分布特征已知,可以表示為F1(x), F2(x), , Fk(x) (2).
2、 或者知道來自各個總體的樣本(訓練樣本)。 對于給定的一個未知樣本X(檢測樣本),判別X屬于哪個總體。多元的、復雜的、高度綜合的統(tǒng)計分析問題Discriminant analysis Fisher判別法 距離判別法 Bayes判別法 逐步判別法 訓練樣本訓練集檢測樣本檢測集判別準則判別效率學習檢測評價距離判別法距離判別的基本思想樣本與哪一類總體的距離最近,就判別它屬于哪一類總體。Discriminant analysis馬氏(Mahalanobis)距離定義:Mahalanobis距離設總體G為n維變量,即含有n個屬性指標(x1, x2, , xn)。已知總體G中的 t個樣本Xk (xk1,
3、xk2, , xkn),k=1, 2, , t??傮w均值可用樣本均值估計:則對于任一點X(x1, x2, , xn) ,定義它與總體G的Mahalanobis距離為:Discriminant analysis其中,矩陣S(sij)nn為:矩陣S稱為協(xié)方差矩陣(covariance matrix),反映屬性指標中第i個分量與第j個分量的相關性。特別地,當n=1時, Mahalanobis距離為:Discriminant analysisxp(x)xp(x)|x-|G1:N(,1)G2:N(,2)Discriminant analysis兩類總體的距離判別已知:考慮具有n個屬性的兩類總體G1、G2
4、, 已知G1的p個訓練樣本, G2的q個訓練樣本:問題:對于未知樣本點X(x1, x2, , xn),判別其類型?Discriminant analysisG1、G2的總體均值根據(jù)樣本均值估計得到:分別求出總體G1、G2的協(xié)方差矩陣S(1)、S(2):Discriminant analysis對于任一新樣本X(x1, x2, , xn),分別計算它到總體G1、G2的Mahalanobis距離:Discriminant analysis構造判別函數(shù)W(X):判別準則為:Discriminant analysis特例:考慮n=1的兩類正態(tài)總體:G1:N(1, 1)G2:N(2, 2)p(x)xG1
5、:N(1,1)G2:N(2,2)12Discriminant analysis不妨設2 1 , 2 1 ,且檢測值滿足2 x 1 ,則:其中于是,判別準則為:Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*Discriminant analysis已知:考慮具有n個屬性的m類總體Gl ( l = 1, 2, , m) ,每類總體已知tl (l=1, 2, , m)個訓練樣本:問題:對于未知樣本點X(x1, x2, , xn),判別其類型?多類總體的距離判別Discriminant analysis類似地,分別計算點X(x1, x2, , xn)到每
6、一類Gl的Mahalanobis距離d2(X, Gl )。其中Discriminant analysis比較找到其中的最小距離:點X(x1, x2, , xn)到類Gi的距離d2(X, Gi )最小,最后判別點X(x1, x2, , xn)屬于第 i 類。Discriminant analysisDiscriminant analysisBayes判別法Bayes判別的基本思想 在p維空間中找出一種分法,使得平均損失最小D1D2DjG1, G2 GkDiscriminant analysis目標函數(shù)(平均損失)假定屬于第i類,把它判為第j類造成的損失為造成這一損失的概率為D1D2DjG1, G
7、2 GkDiscriminant analysis判別準則如果取能使平均損失達到最小判別函數(shù)D1D2DjG1, G2 GkDiscriminant analysisFisher線性判別法Fisher判別的基本思想 將 m組n維的數(shù)據(jù)投影到某一個方向,使得投影后的組與組之間盡可能地分開。平面上兩類數(shù)據(jù)訓練樣本的散點圖(兩組數(shù)據(jù)樣本在平面上存在一個合理的分界線L)x1x2L: c1x1+c2x2c=0令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判別函數(shù) c:判別值G1G2Fisher線性判別法Discriminant analysis已知:數(shù)據(jù)屬性有n個,每個數(shù)據(jù)點為n維向量X:
8、已知總體數(shù)據(jù)分為兩類: G1和G2 ,總體G1有p個樣本點,總體G2有q個樣本點。屬 性 (分量)12n總體G1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)總體G2 (i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)目標:求解在n維空間中總體G1和總體G2的最優(yōu)分界平面。Discriminant analysis定義線性判別函數(shù)為:其中Ci (i =
9、1, 2, , n)為常數(shù)(待定系數(shù))。若判別值為 C , 對于任何未知數(shù)據(jù)點X(x1, x2, , xn),代入判別函數(shù),依據(jù)F (x1, x2, , xn)與C值的比較,可以判別點X屬于哪一類。1、確定待定系數(shù)Ci (i = 1, 2, , n)2、確定判別值CDiscriminant analysis將類G1的p個點、類G2的q個點分別代入判別函數(shù):其中,確定待定系數(shù)CiDiscriminant analysis令:A與G1和G2兩類點的幾何中心的距離相關。顯然,判別函數(shù)F (x1, x2, , xn)應該使A值越大越好。令:B與G1和G2兩類點的相對于各自幾何中心的離差相關。顯然,判別
10、函數(shù)F (x1, x2, , xn)應該使B值越小越好。Discriminant analysis構造函數(shù)I:選擇合適的待定系數(shù)Ci (i = 1, 2, , n),使得函數(shù)I(C1, C2, , Cn)達到極大值。Discriminant analysisDiscriminant analysisDiscriminant analysis消去非零的因子,得到求解待定系數(shù)(C1, C2, , Cn)的線性方程組:Discriminant analysis確定判別值C判別函數(shù)已知,不妨寫成:將G1的p個點、 G2的q個點分別代入判別函數(shù):對G1、G2的(p+q)個點的判別函數(shù)值取總體的平均值:顯
11、然,值是兩類點的判別函數(shù)值的加權平均,處于兩類判別函數(shù)平均值之間,也等價于兩類點的總體幾何中心的判別函數(shù)值。因此,將判別值C取為值:Discriminant analysisFisher線性判別的基本步驟屬 性 (分量)12nG1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)G2(i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)問 題已知數(shù)據(jù)樣本點分為兩
12、類: G1和G2 , G1有p個點, G2有q個點。求出判別函數(shù)F (x1, x2, , xn)和判別值C 。對于任何未知數(shù)據(jù)點X(x1, x2, , xn),依據(jù)F (x1, x2, , xn)與C值的比較,判別點X屬于哪一類。Discriminant analysisSTEP 1先對樣本點數(shù)據(jù)Xi(1)(xi1 (1), xi2 (1), , xin (1)( i=1, , p)、 Xi(2)(xi1 (2), xi2 (2), , xin (2)( i=1, , q)分別計算以下求和以及平均值:Discriminant analysisSTEP 2計算di和Sij,注意對稱性Sij =
13、Sji :Discriminant analysisSTEP 3解線性代數(shù)方程組:若方程有解,得到判別函數(shù)F:Discriminant analysisSTEP 4將平均值代入判別函數(shù),然后計算判別值C:Discriminant analysisSTEP 5對未知數(shù)據(jù)X(x1, x2, , xn)進行判別:將數(shù)據(jù)X(x1, x2, , xn)代入判別函數(shù)F,與判別值進行比較,判別其屬于哪一類。Discriminant analysisFisher線性判別的應用舉例x1x2樣本序號x1x2類別157124323782486253616251766189629542Discriminant ana
14、lysisDiscriminant analysisDiscriminant analysisDiscriminant analysisFisher判別法小結 本質上基于微分尋優(yōu)的方法 局限 1、可能陷入局部最優(yōu)的判別結果; 2、對數(shù)據(jù)屬性各變量的要求較為苛刻,如正態(tài)性、相互獨立性等; Discriminant analysis判別效果的評價錯判損失錯判率N(G1|G2)N(G2|G1)Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*P(G1|G2)P(G2|G1)Discriminant analysis檢驗判別效果的方法訓練集的回判 訓練集(L
15、earning set):訓練樣本集檢測集(Test set):檢測樣本集(類別未知)利用訓練集作為檢測集:用判別方法對已知類型的樣本進行回判,統(tǒng)計判錯的個數(shù)以及占樣本總數(shù)的比例,作為錯判率的估計。特點:容易低估錯判率。 Discriminant analysis從訓練集中構造檢測集已知數(shù)據(jù)集訓練集檢測集判別準則判別效率5050學習檢測評價Discriminant analysis刀切法(Jack-knife Method)“舍一法(Leaveone-out)”“Lachenbruch刪除法”“交叉確認法(Cross-validation)”基本思想:(1). 每次從訓練樣本集中剔除1個樣本X ;(2). 利用其余的樣本(數(shù)量為pq1)作為訓練集來訓練得到判別準則;(3). 根據(jù)判別準則對樣本X 進行判別;(4). 對訓練樣本中的每個樣本依次重復進行,記錄判別對錯的個數(shù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石油鉆井設備清洗與保養(yǎng)流程
- 電子商務平臺的供貨保障策略
- 食品加工設備安裝質量保證措施
- 五年級上冊數(shù)字化學習實踐計劃
- 四種粘接橋修復材料對牙釉質粘接強度的影響
- 酒類文化社交網絡分析-全面剖析
- 非遺題材紀錄片的敘事技巧研究-兼論個人作品《慧心紙韻》
- 能源回收利用技術-全面剖析
- 環(huán)境犯罪治理中生態(tài)環(huán)境修復的適用研究
- 基于深度學習的高中生物大概念教學設計與實踐研究-以“生態(tài)系統(tǒng)及其穩(wěn)定性”為例
- 2《秦腔》公開課一等獎創(chuàng)新教學設計 統(tǒng)編版高中語文選擇性必修下冊
- 車輛動態(tài)監(jiān)控員培訓課件
- 胡氏的由來研究報告
- 人工智能人才培養(yǎng)策略方案
- 護理綜述論文撰寫的方法的講義課件
- 辦公大樓物業(yè)服務投標方案(完整技術標)
- 《公務員錄用體檢表》
- 健康體檢重要異常結果管理專家共識(表格版)
- 可填充顏色的地圖(世界、中國、各省份)
- 石材臺階維修施工方案
- 03尿失禁生活質量問卷(I-QOL)
評論
0/150
提交評論