版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、11 判別分析法(Discriminant Analysis)陳 志 軍中國地質大學()學院1 引言2 費歇兩組判別3 貝葉斯多組判別和逐步判別的基本概念本章內容 1 引言這是一個學習和的過程。橙子桔子訓練(學習)特征提取預處理回歸分析定量預報判別分析定性預報模式識別在許多自然科學和科學問題的研究中,我們所關心的不是樣品的某一指標數(shù)值的多少,而是其類別、歸屬。生物學:各類性狀物種類別醫(yī)學:各類癥狀SAS、豬流感地質學:巖石分類、地層、斷層性質、有礦無礦氣象學:天氣預報是晴、陰、雨?在地學領域中,經(jīng)常著大量的分類問題,即對一定量的事物(如地、樣品或變量)按其屬性進行歸類。由于地質對象的復雜性,單
2、靠定性標志或少數(shù)定量標志進行分類,常常不能揭示客觀事物內在本質的差別和,難以確定地本質屬性的歸屬。同時也造成很多分類計算具有很大的性和任意性,而且所得的結果因人而異,常不能反映客觀實際情況。在對地質對象的類型研究中,有兩大類方法。一類是聚類分析(或稱點群分析,群分析)另一類就是判別分析。判別分析的主要思想是用統(tǒng)計方法將待判的未知樣品與已知類型的樣品進行(定量)類比,以確定待判樣品應歸屬于其中哪一類。全堿硅圖解(TAS)最簡單的情形下,單就一個變量的值就可區(qū)分不同的類別。但是,通常情況下,一個變 量往往難于區(qū)分不同的分類, 只有利用多個變量,才能比 較全面從各個不同的角度刻 畫個母體間的差異。在
3、傳統(tǒng)的地質學研究中,四元以上的系統(tǒng)用幾何圖形表示變得十分 。用適當?shù)臄?shù)學方法從多個變量中提出有關判別分類的有效信息,綜 一個像單變量那樣好用的判別標準。判別分析法所要解決的問題是對樣品的分類,其特點為:在已知研究對象的條件下,確定未知對象屬于已知分類中的哪一類。在包括礦床在內的各類地質研究中,經(jīng)常遇到這類問題。判別分析中的“類比法”思想與傳統(tǒng)地質學中所用類別法的不同:定量;綜合考慮多種因素或標志;以某種最優(yōu)化準則作分類基礎-4-3-2-10123-4-20246x2閃長玢巖出露面積比訓練樣本有礦否?A總體,有礦B總體,無礦x1磁異常指數(shù)對數(shù)值閃長玢巖出露面積比x2磁異常指數(shù)對數(shù)值x1判別分析特
4、點:定量類比、定性預報判別分析也是一種類比法,它是從定量角度,綜合考慮多種地質變量或標志,按照某種最優(yōu)化判別準則作為分類基礎, 來進行分析的。其判別準則分為兩類:費歇準則(R.A.Fish,1936)和貝葉斯準則。 2 費歇兩組判別費歇判別的基本思想費歇判別思想是投影,使理。問題簡化為一維問題來處選擇一個適當?shù)耐队拜S,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。R = c1x1 + c2x2R0所謂Fisher判別法, 是一種先投影,后用距離判別的方法。尋找一個方向,也就是圖上
5、的虛線方向,沿著這個方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚??梢钥闯?,如果向其他方向投影,判別效果好。比這個一、費歇準則準則與準則下的兩類判別線性模型考慮指標與p個自變量有關的兩類判別:設指標y按其取值范圍只分為A、B兩類,對A、B兩類分別有nA,nB個樣品數(shù)據(jù)。Fisher提出,建立p個因子的一個線性判別函數(shù)p= åcj x jy = c1x1 + c2 x2 +L+ cp xpj =1其中判別系數(shù)cj( j=1,2,.,p)的選擇應使得y值滿足:(1) A類與B類這兩類點群盡可能地遠離, 即兩類點群重心間距離盡可能達到最大;(2) 同一類的樣品點盡可能集中。
6、(1)(2)兩點統(tǒng)稱為Fisher準則組間離差平方和(已解釋離差平方和,盡可能大)G = y( A) - y(B)2組內離差平方和(未解釋離差平方和,盡可能?。﹏AnBH = å y( A) - y( A)2 + å y(B) - y(B)2kkk =1k =1nA1nB1x j ( A) = n å xkj ( A)x j (B) = n å xkj (B)其中k =1k =121ppyk (B) = åcj xkj (B)j =1y(B) = åc j x j (B)j =1yk ( A) = åcj xkj ( A)j
7、 =1y( A) = åc j x j ( A)j =1ppSSW: Sum of Squares WithinSSB: Sum of Squares Between要同時滿足費歇判別準則的兩個條件,要求 SSB/SSW y ( A) - y (B)2GI =H=nAnBå yk =1( A) - y ( A)2 + å yk =1(B) - y (B)2kk達到最大。二、兩類判別函數(shù)的參數(shù)估計I 是y的函數(shù),也是cj 的函數(shù)。根據(jù)極值原理,I 取極大值的條件是I 對系數(shù)cj 的偏導數(shù)為0,即: ¶I¶c j= 0(j=1,2,3,p)等價于:
8、¶H¶cj= 1 ¶G(因為 lnI= lnG lnH)I ¶cj其中,é d1 ùé Lùé cùL.L1ú11121pêúêêúD = êd 2 úC = êc2 úL = ê l21L22.L2 p ú. ú=L-1Dê M úê M úê .êc úêdúêL&
9、#250;LLêëpp úûëp ûëp ûp1p 2nAnB= åxki ( A) - xi ( A)xkj ( A) - x j ( A) + åxki (B) - xi (B)xkj (B) - x j (B)Lijk =1k =1(i,j=1,2,p)d j= x j ( A) - x j (B)( j=1,2,3,p)于是,可得線性判別函數(shù)為:y = c1 x1 + c2 x2p= åcj x j j =1+L+c p xp三、確定臨界值及對新樣品作出判別當判別函數(shù)求出后,可
10、進一步求得:類平均值ppy( A) = åc j x j ( A)j =1于是,判別臨界值y(B) = åc j x j (B)j =1= nA y ( A) + nB y (B) =nAn+ nnBn+ ny ( A) +yy (B)0n+ nA可進一步可導出BABABpy0 = å c j x jj =1將新樣品的各變量觀測值代入判別函數(shù),求得相應的函數(shù)值y(判別得分)四、判別效果的分析和檢驗所建立的判別函數(shù)是否有實際意義,判別效果有無實用價值,準確度如何,同樣需用作檢驗分析。(1)總體差異的顯著性檢驗判別分析中,首先要求假定兩類樣品來自有顯著差異、 可區(qū)別的
11、總體,兩總體的均值應有顯著差異。(2)各因子(判別變量)的重要性檢驗可以通過其兩類樣本均值之差來衡量d j= x j ( A) - x j (B)為消除因子量綱的影響,通常在求得判別系數(shù)后,可將其標準 化后再檢驗cj*= cj/sj馬氏距離(Mahalanobis馬哈拉諾比斯距離)設xi,xj是服從均值為,協(xié)方差為 > 0的總體Xpx1抽取的樣品,則稱1/ 2)ù-MD(ûij為p馬氏距離上點xi,xj之間的廣義(統(tǒng)計)距離,亦稱å = diag(s2 ,s2 ,.,s2 )特別地,當12pù1/ 2ép- x)2 úMD(方差
12、)ijë k =1ûk當=Ip,有ù1/ 2ép- x )2MD(ú(歐式距離)ijë k =1û總體差異的顯著性檢驗實際中常用回判法來評價判別函數(shù)的有效性。用所建立的差別函數(shù)對兩總體的已知樣本進行回判,并將判別結果,與已知結果對比,計算判錯率,當判錯率<20%,認為判別函數(shù)有效。nerr ( A) ´100%誤判率(A) =nAnerr (B) ´100%誤判率(B) =nB實例應用實例研究區(qū):寧蕪盆地北段對象:玢巖型鐵礦。比例尺:1:50,000單元劃分:全區(qū)劃分為3×Km2單元100
13、個。(1)根據(jù)研究區(qū)的地質勘探情況,該區(qū)有8個單元為已知有礦單元,14個單元為已知無礦單元,另外78個單元為未知待判單元。因此,令已知有礦單元為A總體,NA=8令已知無礦單元為B總體,NB=8,剩余6個作為回判檢驗.(2)建立數(shù)學模型,即判別分析函數(shù)。經(jīng)過控礦地質因素分析,選出p=7個與成礦關系密切的變量參加建模,x1接觸帶長度,x2單元中心與斷裂噴發(fā)帶的距離。x4閃長玢巖出露面積,x5圍巖蝕變組合的相對熵值,x9磁異常特征值,x10重力異常特征值,x12巖層組合的相對熵。最終建立判別函數(shù):R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9- 0.008X
14、10-0.0267X12(3) 確定判別臨界值。= -1.0622= -2.0489A總體的判別得分RA B總體的判別得分RBR0=-1.5885(4) 顯著性檢驗。i) 對已知單元進行回判,判對率93.3%,說明R0是顯著的, 所建立的判別函數(shù)有效。ii)馬氏檢驗。= RA - RB= 0.9867D2F=2.833,而Fa= F 0.05= 3.29= 2.62F 0.1v1,v 27,87,8F 0.1 < F < F 0.057,87,8判別函數(shù)在=0.1的顯著性水平上有效。(5)對未知單元進行判別,。結果,有22個單元的R>R0,判為A類,為有礦遠景單元。(6)對2
15、2個有利遠景單元的控礦條件和找礦潛力進行評價, 分析。通過分析發(fā)現(xiàn),這些單元多數(shù)位于NE向斷裂和NW向斷裂火山噴發(fā)帶內。而這兩個帶已被證明是本區(qū)重要的成礦條件, 另外,這22個單元之中,有的已經(jīng)發(fā)現(xiàn)了礦點,有些在空間上與已知礦床相鄰,因而,認為這些單元具有良好的成礦條件和較大的成礦潛力。 3 貝葉斯多組判別和逐步判別的基本概念貝葉斯統(tǒng)計的基本思想假定為所研究的對象(總體)在抽樣前已有一定的認識,常用先驗概率分布來描述這種認識,然后基于抽取的樣本再對先驗認識作修正,得到后驗概率分布,再基于后驗概率分布作各種統(tǒng)計推斷。將貝葉斯統(tǒng)計的思想應用于判別分析,就得到貝 葉斯判別方法。費歇準則是對p維空間兩
16、點群尋找最優(yōu)分割面(選擇一個適當?shù)耐队拜S ,使問Pattern Classification題簡化為一維問題來By R. O. Duda,.處理 );而貝葉斯準則是為p兩(多個)點群尋找最優(yōu)的空間劃分方法。尋找最優(yōu)的空間劃分方法,實際上也是要建立一個判別函數(shù), 但這函數(shù)應能滿足誤判平均損失最小的原則。YOUR SITE HEREk個p維總體:G1,G2,Gk分別具有不同的p維概率密度函數(shù):f1(x),f2(x),.,fk(x)。在進行判別之前,確定一個合理的判別準則應該考慮到每個總體出現(xiàn)的可能性大?。聪闰灨怕史植迹?,還應考慮誤判造成的損失問題。先驗概率分布:q1,q2,qk, 有k= 0ii
17、=1誤判損失:c(j|i)表示將實際屬于Gi的樣品判歸為Gj所造成的損失度量。誤判的損失通常在判別分析前就可以估計。一個判別準則(對Rp空間的一個劃分):D=(D1,D2,Dk)。誤判概率:P(j|i,D)表示在判別準則D下將事實來自Gi的樣品誤判為來自Gj的概率。由此誤判而造成的損失為c(j|i) ( j=1,2,k, ji)(誤判損失),因此,在一個給定的判別準則D之下,對Gi而言所造成的損失,應該誤判為G1, ,Gi-1,Gi+1,.,Gk的所有損失。平均誤判損失函數(shù)ECM(Expected Cost of Misclassification)按照各誤判概率求和,即在此判別準則D下,將來
18、自Gi的樣品錯判為其他總體的期望損失為(注意c(i|i)=0)Li = å p( j | i, D) × c( j | i)j =1 j ¹i又由于各總體Gi出現(xiàn)的先驗概率為qi(i=1,2,k),故在判別準則kD之下總的期望損失為kkkL = å qi Lii=1=åå qi × p( j | i, D) × c( j | i)i=1j =1 j ¹i平均誤判損失函數(shù)L與判別準則D有關, 貝葉斯判別即選擇D=(D1,D2,Dk),使L達到最小。將樣品空間Rp劃分為k個兩兩互斥的子空間,存在各種劃分方法,
19、任何一種劃分都可能存在著錯分現(xiàn)象,錯分就會造成損失。顯然,人們希望在某種空間劃分下,使總的錯分損失最小。貝葉斯準則在給定母體先驗概率時,劃分空間使錯分平均損失最小的原則。貝葉斯準則又稱為以指定具有較高后驗概率的母體作為判別X歸屬的準則。兩種準則下的判別分析的選擇貝葉斯準則費歇準則判別類型多用于多組判別多用于兩組判別數(shù)學模型所要求條件較嚴格各組變量必須服從正態(tài)分布;各組方差協(xié)方差矩陣相等;各組變量的均值有顯著的差異;較寬松對判別變量的分布類型并無特定要求,只要求各類總體的二階矩存在,各組變量的均值有顯著的差異逐步判別法(僅僅是在前面的方法中加入變量選擇的功能) 有時,一些變量對于判別并沒有什么作
20、用,為了得到對判別最合 適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進判 別能力最強的變量。 這個過程可以有進有出。一個變量的判別能力的如:方法有很多種,主要利用各種檢驗,例Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等檢驗。 這些不同方法可由統(tǒng)計軟件的各種選項來實現(xiàn)。逐步判別的其他方面和前面的無異。一些有關問題(1)建立判別函數(shù)時應有足夠多的已知樣品,有一定的代表性。其樣品數(shù)越多代表性越強時,所得的判別函數(shù)也就越可靠。每組的樣品數(shù)應大大多于變量數(shù),最好是變量數(shù)的兩倍以上。(2)選擇變量時既要求變量自身能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省宿遷市沭陽縣2024-2025學年三年級上學期期末學情檢測數(shù)學試題參考答案
- 工業(yè)用紙包裝、復合塑料包裝和新材料生產(chǎn)建設項目可行性研究報告寫作模板-申批備案
- 2025年度3個合伙人聯(lián)合開發(fā)環(huán)保項目合作協(xié)議書3篇
- 2025年度123法律APP下載與法律知識庫訂閱合同3篇
- 2024第三方房屋抵押擔保合同
- 2024鋼管架搭設施工合同
- 2025廠區(qū)綠化養(yǎng)護與生態(tài)修復技術培訓服務合同3篇
- 2024版水電暖承包合同范本
- 2024食品廠員工勞動合同簽訂與解除程序合同3篇
- 2024高速公路路側廣告投放合同
- 朝鮮戶籍制度
- DZ/T 0462.3-2023 礦產(chǎn)資源“三率”指標要求 第3部分:鐵、錳、鉻、釩、鈦(正式版)
- 壓力性損傷(壓瘡)質量管理與控制
- 2024-2025年上半學期(三年級)教科版上冊科學平時訓練試卷【可打印】
- 搭竹架合同范本
- Neo4j介紹及實現(xiàn)原理
- (2024年)(完整版)24式太極拳教案全集
- 采購管理實務(高職)全套教學課件
- 2024年教師招聘考試-小學科學教師招聘筆試歷年真題薈萃含答案
- JJF 2092-2024射頻與微波衰減器校準規(guī)范
- 穴位注射的機理與其在臨床上的應用課件
評論
0/150
提交評論