版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、判別分析方法(Discriminant analysis)Discriminant analysis判別分析 用于判別樣本所屬類型的統(tǒng)計分析方法 基因識別:根據(jù)某一DNA序列的核苷酸組分、信號特征等指標(biāo),判別是否編碼蛋白序列? 醫(yī)學(xué)診斷:某一病人肺部存在陰影,判別: 肺結(jié)核?良性腫瘤?肺癌? 人類考古學(xué):根據(jù)頭蓋骨的特征,判別:民族、性別、生活年代? 股票分析預(yù)測: 氣象分析預(yù)測: 自然災(zāi)害分析預(yù)測: Discriminant analysis判別分析問題 設(shè)有k個m維的總體G1, G2, , Gk, (1). 它們的分布特征已知,可以表示為F1(x), F2(x), , Fk(x) (2).
2、 或者知道來自各個總體的樣本(訓(xùn)練樣本)。 對于給定的一個未知樣本X(檢測樣本),判別X屬于哪個總體。多元的、復(fù)雜的、高度綜合的統(tǒng)計分析問題Discriminant analysis Fisher判別法 距離判別法 Bayes判別法 逐步判別法 訓(xùn)練樣本訓(xùn)練集檢測樣本檢測集判別準(zhǔn)則判別效率學(xué)習(xí)檢測評價距離判別法距離判別的基本思想樣本與哪一類總體的距離最近,就判別它屬于哪一類總體。Discriminant analysis馬氏(Mahalanobis)距離定義:Mahalanobis距離設(shè)總體G為n維變量,即含有n個屬性指標(biāo)(x1, x2, , xn)。已知總體G中的 t個樣本Xk (xk1,
3、xk2, , xkn),k=1, 2, , t??傮w均值可用樣本均值估計:則對于任一點X(x1, x2, , xn) ,定義它與總體G的Mahalanobis距離為:Discriminant analysis其中,矩陣S(sij)nn為:矩陣S稱為協(xié)方差矩陣(covariance matrix),反映屬性指標(biāo)中第i個分量與第j個分量的相關(guān)性。特別地,當(dāng)n=1時, Mahalanobis距離為:Discriminant analysisxp(x)xp(x)|x-|G1:N(,1)G2:N(,2)Discriminant analysis兩類總體的距離判別已知:考慮具有n個屬性的兩類總體G1、G2
4、, 已知G1的p個訓(xùn)練樣本, G2的q個訓(xùn)練樣本:問題:對于未知樣本點X(x1, x2, , xn),判別其類型?Discriminant analysisG1、G2的總體均值根據(jù)樣本均值估計得到:分別求出總體G1、G2的協(xié)方差矩陣S(1)、S(2):Discriminant analysis對于任一新樣本X(x1, x2, , xn),分別計算它到總體G1、G2的Mahalanobis距離:Discriminant analysis構(gòu)造判別函數(shù)W(X):判別準(zhǔn)則為:Discriminant analysis特例:考慮n=1的兩類正態(tài)總體:G1:N(1, 1)G2:N(2, 2)p(x)xG1
5、:N(1,1)G2:N(2,2)12Discriminant analysis不妨設(shè)2 1 , 2 1 ,且檢測值滿足2 x 1 ,則:其中于是,判別準(zhǔn)則為:Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*Discriminant analysis已知:考慮具有n個屬性的m類總體Gl ( l = 1, 2, , m) ,每類總體已知tl (l=1, 2, , m)個訓(xùn)練樣本:問題:對于未知樣本點X(x1, x2, , xn),判別其類型?多類總體的距離判別Discriminant analysis類似地,分別計算點X(x1, x2, , xn)到每
6、一類Gl的Mahalanobis距離d2(X, Gl )。其中Discriminant analysis比較找到其中的最小距離:點X(x1, x2, , xn)到類Gi的距離d2(X, Gi )最小,最后判別點X(x1, x2, , xn)屬于第 i 類。Discriminant analysisDiscriminant analysisBayes判別法Bayes判別的基本思想 在p維空間中找出一種分法,使得平均損失最小D1D2DjG1, G2 GkDiscriminant analysis目標(biāo)函數(shù)(平均損失)假定屬于第i類,把它判為第j類造成的損失為造成這一損失的概率為D1D2DjG1, G
7、2 GkDiscriminant analysis判別準(zhǔn)則如果取能使平均損失達(dá)到最小判別函數(shù)D1D2DjG1, G2 GkDiscriminant analysisFisher線性判別法Fisher判別的基本思想 將 m組n維的數(shù)據(jù)投影到某一個方向,使得投影后的組與組之間盡可能地分開。平面上兩類數(shù)據(jù)訓(xùn)練樣本的散點圖(兩組數(shù)據(jù)樣本在平面上存在一個合理的分界線L)x1x2L: c1x1+c2x2c=0令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判別函數(shù) c:判別值G1G2Fisher線性判別法Discriminant analysis已知:數(shù)據(jù)屬性有n個,每個數(shù)據(jù)點為n維向量X:
8、已知總體數(shù)據(jù)分為兩類: G1和G2 ,總體G1有p個樣本點,總體G2有q個樣本點。屬 性 (分量)12n總體G1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)總體G2 (i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)目標(biāo):求解在n維空間中總體G1和總體G2的最優(yōu)分界平面。Discriminant analysis定義線性判別函數(shù)為:其中Ci (i =
9、1, 2, , n)為常數(shù)(待定系數(shù))。若判別值為 C , 對于任何未知數(shù)據(jù)點X(x1, x2, , xn),代入判別函數(shù),依據(jù)F (x1, x2, , xn)與C值的比較,可以判別點X屬于哪一類。1、確定待定系數(shù)Ci (i = 1, 2, , n)2、確定判別值CDiscriminant analysis將類G1的p個點、類G2的q個點分別代入判別函數(shù):其中,確定待定系數(shù)CiDiscriminant analysis令:A與G1和G2兩類點的幾何中心的距離相關(guān)。顯然,判別函數(shù)F (x1, x2, , xn)應(yīng)該使A值越大越好。令:B與G1和G2兩類點的相對于各自幾何中心的離差相關(guān)。顯然,判別
10、函數(shù)F (x1, x2, , xn)應(yīng)該使B值越小越好。Discriminant analysis構(gòu)造函數(shù)I:選擇合適的待定系數(shù)Ci (i = 1, 2, , n),使得函數(shù)I(C1, C2, , Cn)達(dá)到極大值。Discriminant analysisDiscriminant analysisDiscriminant analysis消去非零的因子,得到求解待定系數(shù)(C1, C2, , Cn)的線性方程組:Discriminant analysis確定判別值C判別函數(shù)已知,不妨寫成:將G1的p個點、 G2的q個點分別代入判別函數(shù):對G1、G2的(p+q)個點的判別函數(shù)值取總體的平均值:顯
11、然,值是兩類點的判別函數(shù)值的加權(quán)平均,處于兩類判別函數(shù)平均值之間,也等價于兩類點的總體幾何中心的判別函數(shù)值。因此,將判別值C取為值:Discriminant analysisFisher線性判別的基本步驟屬 性 (分量)12nG1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)G2(i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)問 題已知數(shù)據(jù)樣本點分為兩
12、類: G1和G2 , G1有p個點, G2有q個點。求出判別函數(shù)F (x1, x2, , xn)和判別值C 。對于任何未知數(shù)據(jù)點X(x1, x2, , xn),依據(jù)F (x1, x2, , xn)與C值的比較,判別點X屬于哪一類。Discriminant analysisSTEP 1先對樣本點數(shù)據(jù)Xi(1)(xi1 (1), xi2 (1), , xin (1)( i=1, , p)、 Xi(2)(xi1 (2), xi2 (2), , xin (2)( i=1, , q)分別計算以下求和以及平均值:Discriminant analysisSTEP 2計算di和Sij,注意對稱性Sij =
13、Sji :Discriminant analysisSTEP 3解線性代數(shù)方程組:若方程有解,得到判別函數(shù)F:Discriminant analysisSTEP 4將平均值代入判別函數(shù),然后計算判別值C:Discriminant analysisSTEP 5對未知數(shù)據(jù)X(x1, x2, , xn)進(jìn)行判別:將數(shù)據(jù)X(x1, x2, , xn)代入判別函數(shù)F,與判別值進(jìn)行比較,判別其屬于哪一類。Discriminant analysisFisher線性判別的應(yīng)用舉例x1x2樣本序號x1x2類別157124323782486253616251766189629542Discriminant ana
14、lysisDiscriminant analysisDiscriminant analysisDiscriminant analysisFisher判別法小結(jié) 本質(zhì)上基于微分尋優(yōu)的方法 局限 1、可能陷入局部最優(yōu)的判別結(jié)果; 2、對數(shù)據(jù)屬性各變量的要求較為苛刻,如正態(tài)性、相互獨(dú)立性等; Discriminant analysis判別效果的評價錯判損失錯判率N(G1|G2)N(G2|G1)Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*P(G1|G2)P(G2|G1)Discriminant analysis檢驗判別效果的方法訓(xùn)練集的回判 訓(xùn)練集(L
15、earning set):訓(xùn)練樣本集檢測集(Test set):檢測樣本集(類別未知)利用訓(xùn)練集作為檢測集:用判別方法對已知類型的樣本進(jìn)行回判,統(tǒng)計判錯的個數(shù)以及占樣本總數(shù)的比例,作為錯判率的估計。特點:容易低估錯判率。 Discriminant analysis從訓(xùn)練集中構(gòu)造檢測集已知數(shù)據(jù)集訓(xùn)練集檢測集判別準(zhǔn)則判別效率5050學(xué)習(xí)檢測評價Discriminant analysis刀切法(Jack-knife Method)“舍一法(Leaveone-out)”“Lachenbruch刪除法”“交叉確認(rèn)法(Cross-validation)”基本思想:(1). 每次從訓(xùn)練樣本集中剔除1個樣本X ;(2). 利用其余的樣本(數(shù)量為pq1)作為訓(xùn)練集來訓(xùn)練得到判別準(zhǔn)則;(3). 根據(jù)判別準(zhǔn)則對樣本X 進(jìn)行判別;(4). 對訓(xùn)練樣本中的每個樣本依次重復(fù)進(jìn)行,記錄判別對錯的個數(shù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)輿論生態(tài)構(gòu)建-洞察分析
- 半日家長開放日活動家長的感言(10篇)
- 醫(yī)療保險創(chuàng)新發(fā)展-洞察分析
- 醫(yī)院醫(yī)保每月工作總結(jié)(8篇)
- 《禽場的建筑詳解》課件
- 獸藥經(jīng)營企業(yè)課件獸藥知識
- 高考英語讀后續(xù)寫微技能提升課件:專題05-讀后續(xù)寫微技能之“腿”-
- 辦公室里的知識競賽動植物百科的策劃與實踐
- 辦公室安全的應(yīng)急處理策略
- 利用虛擬技術(shù)豐富小學(xué)生的科學(xué)體驗與實踐
- 公司招商部工作流程及管理制度
- 漢語閱讀教程第一冊第十二課
- 江蘇省南京市六校2024-2025學(xué)年高一上學(xué)期期中聯(lián)合調(diào)研 化學(xué)試題
- 2024年時事政治試題(帶答案)
- 高一數(shù)學(xué)必修一知識點和公式
- 系統(tǒng)商用密碼應(yīng)用方案v5-2024(新模版)
- 2024年秋國家開放大學(xué)《形勢與政策》大作業(yè):建設(shè)中華民族現(xiàn)代文明的路徑是什么?中華民族現(xiàn)代文明有哪些鮮明特質(zhì)?附答案【供參考】
- Unit 3 Lesson 13 At School(教學(xué)設(shè)計)-2024-2025學(xué)年冀教版(三起)英語四年級上冊
- 2024年7月國開電大本科《建筑結(jié)構(gòu)試驗》期末考試試題及答案
- 09S302 雨水斗選用及安裝
- 生產(chǎn)通風(fēng)管道300萬平方米等技術(shù)改造項目環(huán)評資料環(huán)境影響
評論
0/150
提交評論