礦床統(tǒng)計(jì)預(yù)測(cè)2017-9-判別(含k-最近鄰)_第1頁(yè)
礦床統(tǒng)計(jì)預(yù)測(cè)2017-9-判別(含k-最近鄰)_第2頁(yè)
礦床統(tǒng)計(jì)預(yù)測(cè)2017-9-判別(含k-最近鄰)_第3頁(yè)
礦床統(tǒng)計(jì)預(yù)測(cè)2017-9-判別(含k-最近鄰)_第4頁(yè)
礦床統(tǒng)計(jì)預(yù)測(cè)2017-9-判別(含k-最近鄰)_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

9.1概述9判別分析法判別分析也是一種傳統(tǒng)的多元統(tǒng)計(jì)分析方法。判別分析屬于“模式識(shí)別”方法,在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,判別分析方法屬于“監(jiān)督分類(lèi)”或“有導(dǎo)師學(xué)習(xí)”方法。判別分析的任務(wù)是在假設(shè)研究對(duì)象分類(lèi)情況已知的前提下,判斷未知樣品屬于其中哪一類(lèi)。判別分析法的一般思路是,利用已知對(duì)象(如單元)的觀測(cè)數(shù)據(jù),建立一個(gè)判別函數(shù)(也稱(chēng)判別模型),經(jīng)檢驗(yàn)認(rèn)為模型有效后,將未知對(duì)象的數(shù)據(jù)代入該模型,算出未知對(duì)象應(yīng)歸屬的類(lèi)別。判別分析法用于礦產(chǎn)預(yù)測(cè)的基本思路是,假設(shè)所有單元可分為不同的類(lèi)別,如“無(wú)礦單元”、“含礦單元”;選擇一批控制單元,它們也可分為這兩類(lèi);根據(jù)控制單元中的多變量數(shù)據(jù),建立一個(gè)判別模型,然后應(yīng)用該模型,判斷任一未知單元屬于這些類(lèi)別中的哪一類(lèi)。一旦識(shí)別了一個(gè)未知單元的類(lèi)別,也就實(shí)現(xiàn)了對(duì)它是否含礦的預(yù)測(cè)。以下主要介紹狹義的判別分析,即基于費(fèi)歇(Fisher)準(zhǔn)則的兩類(lèi)判別分析方法。這是一種傳統(tǒng)的多元統(tǒng)計(jì)分析方法。9.1概述9判別分析法基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別,簡(jiǎn)稱(chēng)為費(fèi)歇(Fisher)判別,是假設(shè)已知對(duì)象分為2類(lèi)的情況下,判斷任一未知對(duì)象的類(lèi)別。(對(duì)象=樣品)9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析9.2.1判別函數(shù)與費(fèi)歇準(zhǔn)則設(shè)p維變量空間內(nèi),已知有A、B兩類(lèi)樣品點(diǎn)。為分開(kāi)這兩個(gè)類(lèi)別的樣品,需要找到一個(gè)投影面R,使兩點(diǎn)群投影到R之后達(dá)到最大程度的分離,而各群內(nèi)部離散程度盡量小。R稱(chēng)為判別函數(shù),它是多個(gè)變量的線(xiàn)性組合。例如,x1x2R假設(shè)只有兩個(gè)變量(右圖),R是一條直線(xiàn)。兩點(diǎn)群投影到任一變量軸上不能很好地分離,但投影到R后可以最大限度地分離。A類(lèi)B類(lèi)9判別分析法9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析判別函數(shù)R的表達(dá)式可寫(xiě)為其中,是待定的各變量系數(shù)。將任一樣品的各變量數(shù)據(jù)代入判別函數(shù)R,得到的函數(shù)值稱(chēng)為該樣品的判別得分。如何確定諸從而得到R?假設(shè)R已經(jīng)得到,并令和分別表示A、B兩類(lèi)判別得分的平均值:這里,和分別為A、B

Eq9-1Eq9-2Eq9-3兩類(lèi)樣品各變量的平均值。9判別分析法投影后,兩點(diǎn)群中心的”距離”可表示為9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析為兩類(lèi)樣品數(shù);兩點(diǎn)群內(nèi)部的離散程度可用離差平方和來(lái)表征:、,、分別為A、B兩類(lèi)第i樣品第

j變量的值。Eq9-4Eq9-5Eq9-6分別為兩類(lèi)樣品中第i個(gè)樣品的判別得分。9判別分析法費(fèi)歇準(zhǔn)則是使投影后的類(lèi)間距離盡量大、類(lèi)內(nèi)離差盡量小的最優(yōu)化準(zhǔn)則,即令9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析達(dá)到極大值,求出從而獲得判別函數(shù)。為此需要解方程組該方程組經(jīng)求導(dǎo)、化簡(jiǎn)、整理后變?yōu)槿缦路匠探M:Eq9-79判別分析法其中,9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析Eq9-8Eq9-9Eq9-10Eq9-119判別分析法兩類(lèi)離差平方和的和兩類(lèi)離差叉積和的和9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析9判別分析法令上頁(yè)的方程組可寫(xiě)成矩陣形式:解方程組可求出各從而得到判別函數(shù):Eq9-12Eq9-13或Eq9-14(=Eq9-1)9.2.2判別函數(shù)的使用9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析將任一樣品的多變量數(shù)據(jù)代入判別函數(shù),可求出該樣品的判別得分。如果判別函數(shù)有效,兩類(lèi)樣品的判別得分值大小將會(huì)有顯著差別,一類(lèi)較大,另一類(lèi)較小。所以算出判別得分后就可判斷一個(gè)樣品屬于已知分類(lèi)的哪一類(lèi)。但需要一個(gè)判別臨界值,以便歸類(lèi)。判別臨界值R0為:即判別臨界值是兩類(lèi)樣品平均判別得分按樣品數(shù)加權(quán)的平均值。Eq9-159判別分析法判別函數(shù)是否有效,可用兩種方法進(jìn)行檢驗(yàn):(1)回判。計(jì)算已知樣品的判別得分,并據(jù)此歸類(lèi)(稱(chēng)回判)。一般來(lái)說(shuō)判對(duì)率越高說(shuō)明判別函數(shù)越好。實(shí)際中若判對(duì)率達(dá)到如80%以上,可認(rèn)為判別函數(shù)有效。(2)F-檢驗(yàn)。求第一自由度為p,第二自由度為NA+NB-p

-1的F-統(tǒng)計(jì)量:9.2.3判別函數(shù)的檢驗(yàn)9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析給定置信度,查F-分布表,若計(jì)算值超過(guò)表列值,認(rèn)為判別函數(shù)有效。Eq9-169判別分析法一個(gè)簡(jiǎn)單例子,用于說(shuō)明費(fèi)歇判別分析應(yīng)用過(guò)程。9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析控制單元數(shù)據(jù)如右表類(lèi)別單元號(hào)x1x2x3x4A(有礦)113.854.797.8049.60222.314.6712.3147.80328.824.6316.1862.15415.293.547.5843.20528.294.9016.1258.70B(無(wú)礦)62.181.061.2320.5073.850.84.0647.10811.400.003.500.0093.662.422.1415.101012.100.005.680.00下面建立判別函數(shù)。9判別分析法9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析,所以先算出S和D。由Eq9-9計(jì)算兩類(lèi)中各變量平均值的差:9判別分析法為獲得判別函數(shù),需解方程組9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類(lèi)判別分析對(duì)稱(chēng)矩陣,下三角未列出。由Eq9-10和Eq9-11計(jì)算。判別函數(shù)為判別臨界值為因?yàn)樗裕袆e得分大于臨界值的樣品都將判為A類(lèi)。9判別分析法各類(lèi)判別得分平均值為9.2.4費(fèi)歇判別分析舉例9.2費(fèi)歇兩類(lèi)判別檢驗(yàn)(1)回判正確率100%:(2)計(jì)算得F-統(tǒng)計(jì)量14.822,查表可知,在0.01置信水平上顯著。對(duì)未知單元進(jìn)行判別(例如下表):類(lèi)別單元號(hào)x1x2x3x4得分判別歸類(lèi)未知318.853.285.1726.103.984B(無(wú)礦)3228.62.41.2127.029.355A(有礦)類(lèi)別單元號(hào)R回判歸類(lèi)A(有礦)16.008A27.016A38.094A46.946A57.968AB(無(wú)礦)62.484B72.692B83.123B92.603B101.141B9判別分析法9.3.1概述9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法基于實(shí)例的學(xué)習(xí)(k-instancebasedlearning)也稱(chēng)k-最近鄰法,是一類(lèi)模式識(shí)別方法,能夠進(jìn)行多類(lèi)判別。該方法的特點(diǎn)是不管已知分類(lèi)情況如何復(fù)雜,都能進(jìn)行識(shí)別;計(jì)算過(guò)程很簡(jiǎn)單,且?guī)缀醪皇軘?shù)據(jù)噪聲影響,被稱(chēng)為最穩(wěn)健的智能化模式識(shí)別方法,應(yīng)用廣泛。9.3.1概述9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在該類(lèi)方法中,用于建立判別模型的已知樣本稱(chēng)為訓(xùn)練樣本或訓(xùn)練集(在礦床統(tǒng)計(jì)預(yù)測(cè)中即控制單元)。訓(xùn)練集中可以包含任意多個(gè)類(lèi)別的樣品,這些類(lèi)別的名稱(chēng)可以用文字符號(hào)或數(shù)字表示,稱(chēng)為類(lèi)標(biāo)號(hào)(類(lèi)標(biāo)簽)。根據(jù)計(jì)算結(jié)果不同,該方法有若干種變種,有的只識(shí)別類(lèi)標(biāo)號(hào),有的可輸出定量結(jié)果。分別介紹如下。9.3.2輸出類(lèi)標(biāo)號(hào)的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法輸出類(lèi)標(biāo)號(hào)的k-最近鄰法是k-最近鄰法中最簡(jiǎn)單的一種。計(jì)算過(guò)程共2步,如下:第1步:列出訓(xùn)練樣品數(shù)據(jù)表。設(shè)有n個(gè)訓(xùn)練樣品。數(shù)據(jù)表格式為:為類(lèi)標(biāo)號(hào)(文本變量),共m類(lèi)。其中為d維實(shí)向量(表示有d個(gè)變量);所以數(shù)據(jù)表有n行d+1列。在礦床統(tǒng)計(jì)預(yù)測(cè)中,訓(xùn)練樣品就是控制單元。訓(xùn)練樣品數(shù)據(jù)表也稱(chēng)為訓(xùn)練樣本表,也就是控制單元數(shù)據(jù)表。所以數(shù)據(jù)表有d+1列。式中f(x)稱(chēng)為x的目標(biāo)函數(shù)值,其值是類(lèi)標(biāo)號(hào);v是已知類(lèi)別號(hào),argmax

表示在k個(gè)樣品類(lèi)標(biāo)號(hào)中,出現(xiàn)最多的那一個(gè),即v。第2步:識(shí)別。給定未知對(duì)象,從“訓(xùn)練樣本表”中取出k個(gè)與距離最近的對(duì)象,設(shè)為。9.3.2輸出類(lèi)標(biāo)號(hào)的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法計(jì)算距離的公式:Eq9-17考查所取出的k個(gè)對(duì)象中都是什么類(lèi)別,將其中出現(xiàn)最多的類(lèi)標(biāo)號(hào),作為的類(lèi)標(biāo)號(hào)判斷結(jié)果。用公式表示為:Eq9-189.3.2輸出類(lèi)標(biāo)號(hào)的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法示例:設(shè)訓(xùn)練樣本分2類(lèi),分別用+和-表示;共2個(gè)變量。若k=5,判別結(jié)果為:Xq屬于“-”類(lèi)若k=1,判別結(jié)果為:Xq屬于“+”類(lèi)可見(jiàn),若已知分類(lèi)情況與變量之間不是線(xiàn)性關(guān)系、很復(fù)雜,該方法仍能識(shí)別未知樣品類(lèi)別。另外,k取多大,無(wú)現(xiàn)成規(guī)則,需要試驗(yàn)。9.3.2輸出類(lèi)標(biāo)號(hào)的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在礦床統(tǒng)計(jì)預(yù)測(cè)中,地質(zhì)變量數(shù)據(jù)應(yīng)為定量數(shù)據(jù),這樣才能計(jì)算距離(Eq9-17)。預(yù)測(cè)結(jié)果是未知單元的可能歸屬的類(lèi)別,如“含礦”、“不含礦”或“含大礦”等。9.3.3輸出連續(xù)值的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法輸出連續(xù)值是指預(yù)測(cè)結(jié)果不是類(lèi)標(biāo)號(hào),而是定量數(shù)值,如“找礦有利度”、“資源量”等。為了獲得連續(xù)值預(yù)測(cè)結(jié)果,訓(xùn)練集中樣品的y值也應(yīng)當(dāng)是連續(xù)值。這時(shí),將前述的識(shí)別公式Eq9-18改為即計(jì)算所取出k個(gè)樣品的因變量的平均值作為判別結(jié)果。也只需兩步就可達(dá)到目的。Eq9-199.3.3輸出連續(xù)值的k-最近鄰法——簡(jiǎn)單例子9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法x1x2顏色表示礦床規(guī)模值(數(shù)字未寫(xiě)出),k=6。算出圈內(nèi)6個(gè)點(diǎn)的礦床規(guī)模平均值作為預(yù)測(cè)結(jié)果。k=12。算出圈內(nèi)12個(gè)點(diǎn)的礦床規(guī)模平均值作為預(yù)測(cè)結(jié)果。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在預(yù)測(cè)未知樣品時(shí),上述k-最近鄰法將取出的k個(gè)訓(xùn)練樣本同等對(duì)待。距離加權(quán)k-最近鄰法能夠使距較遠(yuǎn)的訓(xùn)練樣本起較小的作用,讓較近的起較大作用,通常這樣更合理。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法其中表示以距離平方的倒數(shù)為權(quán)系數(shù)。這時(shí),表達(dá)式(1)輸出類(lèi)標(biāo)號(hào):只需將Eq9-18作如下改動(dòng):Eq9-20Eq9-21會(huì)算出一個(gè)連續(xù)值;Eq9-20表示判別結(jié)果取該連續(xù)值最大的那個(gè)類(lèi)標(biāo)號(hào)。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法(1)輸出類(lèi)標(biāo)號(hào)——簡(jiǎn)單例子x1x2例如顏色表示不同的類(lèi)標(biāo)號(hào)。k=4。若不進(jìn)行距離加權(quán),預(yù)測(cè)結(jié)果為xq屬于洋紅色類(lèi);若距離加權(quán),預(yù)測(cè)結(jié)果可能為:xq屬于綠色類(lèi)。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法(2)輸出連續(xù)值:只需將Eq9-19作如下改動(dòng):Eq9-22f(xi)為實(shí)連續(xù)函數(shù)。使用該公式的k最近鄰法稱(chēng)為Shepard方法。在實(shí)施距離加權(quán)k-最近鄰法時(shí),可以不先選出k個(gè)最近鄰樣本,而是用所有訓(xùn)練樣本都算,這樣可省去選擇較近樣品的步驟,較方便,但如樣品數(shù)多則會(huì)較慢。這時(shí)稱(chēng)為全局方法。否則稱(chēng)局部方法。9.3.5應(yīng)用注意事項(xiàng)9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法因?yàn)橐枚嘧兞繑?shù)據(jù)計(jì)算樣品之間的距離,所以,所有的自變量都應(yīng)當(dāng)規(guī)格化,或做其它類(lèi)似的變換,以使不同變量統(tǒng)一量綱??刂茊卧ㄓ?xùn)練集)和未知單元的數(shù)據(jù)要統(tǒng)一進(jìn)行規(guī)格化。如果數(shù)據(jù)沒(méi)有規(guī)格化,則所計(jì)算出的距離受那些值域大的變量影響大,而值域小的變量無(wú)意間被忽視。9.3.5例9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法訓(xùn)練樣本數(shù)據(jù):110個(gè)樣品2個(gè)變量3類(lèi)樣品號(hào)x1x2類(lèi)標(biāo)號(hào)9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法1類(lèi)別23訓(xùn)練樣本數(shù)據(jù)散點(diǎn)圖9.3.5例9.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論