第判別分析課件_第1頁
第判別分析課件_第2頁
第判別分析課件_第3頁
第判別分析課件_第4頁
第判別分析課件_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第判別分析第判別分析1(優(yōu)選)第判別分析(優(yōu)選)第判別分析把這類問題用數(shù)學(xué)語言來表達,可以敘述如下設(shè)有k個m維總體(或類別)G1,G2,…,Gk,(1)、它們的分布特征已知,已知分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x);(2)、或知道來自各總體的樣本(訓(xùn)練樣本)。對給定的一個新樣本X(檢測樣本),判斷X來自哪一個總體(類)。把這類問題用數(shù)學(xué)語言來表達,可以敘述如下判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準則,如馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法距離判別法、Fisher判別法、Bayes判別法和逐步判別法。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分第二節(jié)距離判別法距離判別的基本思想樣本與哪一類總體的距離最近,就判別它屬于哪一類總體。第二節(jié)距離判別法距離判別的基本思想第二節(jié)距離判別法一馬氏距離的概念二距離判別三判別分析的實質(zhì)

第二節(jié)距離判別法一馬氏距離的概念二距離判已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)量高,平均耐磨程度為,設(shè)備精度的方差;是設(shè)備B生產(chǎn)的產(chǎn)品,質(zhì)量稍差,?,F(xiàn)有一產(chǎn)品X,測得其耐磨度,試判斷該產(chǎn)品是哪一臺設(shè)備生產(chǎn)的?已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)一、馬氏距離的概念

一、馬氏距離的概念圖5.1圖5.1第判別分析課件設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不相交,且它們的和集為Rm,則稱D1,這時判別準則可以采用如下方法二Bayes判別的基本方法又D1,D2,…,Dk是Rm的一個劃分,判別法則為:點擊DefineRange按鈕,定義分組變量的取值范圍。未標(biāo)準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準化的系數(shù)要方便一些。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。三、線性判別函數(shù)的求法例如,將第一個待判樣品的自變量值分別代入函數(shù),得到按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;三、線性判別函數(shù)的求法這時判別準則可以采用如下方法第四節(jié)費歇(Fisher)判別法均損失g(D*)達到最小,即即當(dāng)樣本發(fā)生時,求他屬于某類的概率。方差;為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不二、距離判別 1、兩個總體的距離判別問題問題設(shè)有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值 分別是1和2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計算新樣品X到兩個總體的馬氏距離D2(X, G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷這個判別規(guī)則的等價描述為求新樣品X到G1的距離與到G2 的距離之差,如果其值為正,X屬于G2;否則X屬于G1。二、距離判別 1、兩個總體的距離判別問題首先考慮

時的判別方法首先考慮時的判別

第判別分析課件一、Fisher判別的基本思想單擊Continue按鈕。設(shè)有總體,具有概率密度函數(shù)。均損失g(D*)達到最小,即2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)4Classify…子對話框稍差,。按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;用L(j|i;D)表示由判別法D判別歸類時,將來自總體是設(shè)備B生產(chǎn)的產(chǎn)品,質(zhì)量返回判別分析主界面,單擊OK按鈕,運行判別分析過程。合密度函數(shù)為,先驗概率為,并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。2、多個總體的距離判別例如,將第一個待判樣品的自變量值分別代入函數(shù),得到先驗概率是一種權(quán)重(比例)。錯判損失為,則貝葉斯判別的解ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。這里我們應(yīng)該注意到一、Fisher判別的基本思想這里我們應(yīng)該注意到第判別分析課件2、多個總體的距離判別2、多個總體的距離判別三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。為了更清楚的認識判別分析的實質(zhì),以便能靈活的應(yīng)用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不相交,且它們的和集為Rm,則稱D1,D2,…,Dk為Rm的一個劃分。這時判別準則可以采用如下方法三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變

這樣我們將會發(fā)現(xiàn),判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對m維空間Rm構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。

第三節(jié)貝葉斯(Bayes)判別法一Bayes判別的基本思想

二Bayes判別的基本方法

第三節(jié)貝葉斯(Bayes)判別法一Bayes判別的從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。 第一,判別方法與各總體出現(xiàn)的概率的大小無關(guān); 第二,判別方法沒有考慮錯判所造成的損失。

Bayes判別法就是為了解決這些問題而提出的一種判別方法。Bayes判別的基本思想從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的先驗概率先驗概率是一種權(quán)重(比例)。所謂“先驗”是指先于我們判斷決策之前。先驗概率的賦值方法1、利用歷史資料及經(jīng)驗進行估計;2、利用訓(xùn)練樣本中各類樣品占的比例估計;3、假定k個總體各自出現(xiàn)的概率相同,即1/k;先驗概率先驗概率先驗概率(二)主要運行結(jié)果解釋均損失g(D*)達到最小,即(注意這個選項不是要給出Fisher判別函數(shù)的系數(shù)。應(yīng)該使平均錯判損失最小。Predictedgroupmembership存放判別樣品所屬組別的值;這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。它表示把樣品X判歸的平均損失。32,F(xiàn)3=3882.77,F(xiàn)2=3528.2、針對多個總體的情形單擊Continue按鈕,返回主界面。為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾未標(biāo)準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準化的系數(shù)要方便一些。均損失g(D*)達到最小,即第二,判別方法沒有考慮錯判所造成的損失。點擊DefineRange按鈕,定義分組變量的取值范圍。辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。一Bayes判別的基本思想這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。77,F(xiàn)2=3528.在馬氏距離的基礎(chǔ)上,進一步考慮先驗概率及各組內(nèi)協(xié)方差陣的不同,定義樣品X到各總體的廣義平方距離為其中廣義平方距離(二)主要運行結(jié)果解釋在馬氏距離的基礎(chǔ)上,進一步考慮先驗概廣義平方距離判別準則

廣義平方距離判別準則Bayes判別準則一、最大后驗準則辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。Bayes判別準則一、最大后驗準則第判別分析課件第判別分析課件

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:判別規(guī)則則判給。設(shè)有總體二、最小平均損失準則

設(shè)有總體,具有概率密度函數(shù)并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為,其中又D1,D2,…,Dk是Rm的一個劃分,判別法則為:當(dāng)樣品X落入Di時,則判

關(guān)鍵的問題是尋找D1,D2,…,Dk劃分,這個劃分應(yīng)該使平均錯判損失最小。

二、最小平均損失準則設(shè)有總體錯判概率:P(j|i;D)

用P(j|i;D)表示由判別法D判別歸類時,將來自總體Gi的樣品錯判到總體Gj的概率。顯然

用L(j|i;D)表示由判別法D判別歸類時,將來自總體Gi的樣品錯判到總體Gj所造成的損失。錯判損失:L(j|i;D)錯判概率和錯判損失的估計!錯判概率:P(j|i;D)用P(j|i;D)表示由

定義如果有判別法D*,使得D*帶來的平均損失g(D*)達到最小,即則稱判別法D*符合貝葉斯判別準則,或稱D*為貝葉斯判別的解第判別分析課件定理設(shè)有k的總體,已知的聯(lián)合密度函數(shù)為,先驗概率為,錯判損失為,則貝葉斯判別的解為其中它表示把樣品X判歸的平均損失。定理設(shè)有k的總體

第四節(jié)費歇(Fisher)判別法一Fisher判別的基本思想

二Fisher判別函數(shù)的構(gòu)造

三線性判別函數(shù)的求法第四節(jié)費歇(Fisher)判別法一Fisher判別Fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進行分類判別。Fisher判別法是1936年提出來的,該方法的主要思想是通一、Fisher判別的基本思想

一、Fisher判別的基本思想二、Fisher判別函數(shù)的構(gòu)造

1、針對兩個總體的情形

二、Fisher判別函數(shù)的構(gòu)造 1、針對兩個總體的情形

2、針對多個總體的情形

2、針對多個總體的情形均損失g(D*)達到最小,即這里極易混淆,請讀者注意辨別。(二)主要運行結(jié)果解釋Bayes判別的基本思想二、最小平均損失準則稍差,。G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷錯判概率:P(j|i;D)并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為,其中2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。錯判概率:P(j|i;D)對給定的一個新樣本X(檢測樣本),判斷X來自哪一個總體(類)。用L(j|i;D)表示由判別法D判別歸類時,將來自總體按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;點擊DefineRange按鈕,定義分組變量的取值范圍。一、Fisher判別的基本思想2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)

均損失g(D*)達到最小,即三、線性判別函數(shù)的求法

三、線性判別函數(shù)的求法

這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。

這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不第判別分析課件第五節(jié)實例分析與計算機實現(xiàn)這一節(jié)我們利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類?

X1

:0歲組死亡概率

X

4:55歲組死亡概率

X

2

:1歲組死亡概率

X5

:80歲組死亡概率

X

3

:10歲組死亡概率X6

:平均預(yù)期壽命第五節(jié)實例分析與計算機實現(xiàn)這一節(jié)我們利用SPSS對Fis表4.1各地區(qū)死亡概率表表4.1各地區(qū)死亡概率表

(一)操作步驟

1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將—變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。圖4.2判別分析主界面 (一)操作步驟圖4.2判別分析主界面 2.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。 3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個選項的含義如下Fisher’s給出Bayes判別函數(shù)的系數(shù)。(注意這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復(fù)選框的名字之所以為Fisher’s,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)Unstandardized給出未標(biāo)準化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認給出標(biāo)準化的Fisher判別函數(shù)系數(shù))。 2.點擊DefineRange按鈕,定義分組變量的取值單擊Continue按鈕,返回主界面。圖4.3Statistics子對話框單擊Continue按鈕,返回主界面。圖4.3Stat

4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,輸出一個判別結(jié)果表,包括每個樣品的判別分數(shù)、后驗概率、實際組和預(yù)測組編號等。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。圖4.4Classify…子對話框 4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸 5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義分別為Predictedgroupmembership存放判別樣品所屬組別的值;Discriminantscores存放Fisher判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;Probabilitiesofgroupmembership存放樣品屬于各組的Bayes后驗概率值。將對話框中的三個復(fù)選框均選中,單擊Continue按鈕返回。 5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)返回判別分析主界面,單擊OK按鈕,運行判別分析過程。D2,…,Dk為Rm的一個劃分。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。這里極易混淆,請讀者注意辨別。已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)錯判概率和錯判損失的估計!這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。點擊DefineRange按鈕,定義分組變量的取值范圍。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。用L(j|i;D)表示由判別法D判別歸類時,將來自總體這一節(jié)我們利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。判別分析內(nèi)容很豐富,方法很多。設(shè)有總體,具有概率密度函數(shù)。方差;在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括實際類(ActualGroup)、預(yù)測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。2、多個總體的距離判別第一,判別方法與各總體出現(xiàn)的概率的大小無關(guān);ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))第五節(jié)實例分析與計算機實現(xiàn)Predictedgroupmembership存放判別樣品所屬組別的值;一馬氏距離的概念

6.返回判別分析主界面,單擊OK按鈕,運行判別分析過程。圖4.5Save子對話框返回判別分析主界面,單擊OK按鈕,運行判別分析過程。圖4.5 (二)主要運行結(jié)果解釋

1.StandardizedCanonicalDiscriminantFunctionCoefficients(給出標(biāo)準化的典型判別函數(shù)系數(shù))標(biāo)準化的典型判別函數(shù)是由標(biāo)準化的自變量通過Fisher判別法得到的,所以要得到標(biāo)準化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標(biāo)準化的。

2.CanonicalDiscriminantFunctionCoefficients(給出未標(biāo)準化的典型判別函數(shù)系數(shù))未標(biāo)準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準化的系數(shù)要方便一些。見表4.2(a)。 (二)主要運行結(jié)果解釋由此表可知,兩個Fisher判別函數(shù)分別為實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標(biāo),這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。由此表可知,兩個Fisher判別函數(shù)分別為表4.2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)表4.2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)

3.FunctionsatGroupCentroids(給出組重心處的Fisher判別函數(shù)值)如表4.2(b)所示,實際上為各類別重心在空間中的坐標(biāo)位置。這樣,只要在前面計算出各觀測值的具體坐標(biāo)位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。表4.2(b)組重心處的Fisher判別函數(shù)值 3.FunctionsatGroupCentroi 4.ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))如表4.3所示,GROUP欄中的每一列表示樣品判入相應(yīng)列的Bayes判別函數(shù)系數(shù)。在本例中,各類的Bayes判別函數(shù)如下 第一組 第二組 第三組

4.ClassificationFunctionC將各樣品的自變量值代入上述三個Bayes判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代入函數(shù),得到F1=3793.77,F(xiàn)2=3528.32,F(xiàn)3=3882.48比較三個值,可以看出最大,據(jù)此得出第一個待判樣品應(yīng)該屬于第三組。將各樣品的自變量值代入上述三個Bayes判別函數(shù),得到三個函表4.3Bayes判別法的輸出結(jié)果表4.3Bayes判別法的輸出結(jié)果 5.CasewiseStatistics(給出個案觀察結(jié)果)在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括實際類(ActualGroup)、預(yù)測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。出于排版要求,這里給出結(jié)果表的是經(jīng)過加工的,隱藏了其中的一些項目,如表4.4所示。從表中可以看出四個待判樣本依次被判別為第三組、第一組、第二組和第三組。 5.CasewiseStatistics(給出個案觀察比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括實際類(ActualGroup)、預(yù)測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。按人們主觀意識,一個人是好人或壞人的概率均為0.點擊DefineRange按鈕,定義分組變量的取值范圍。二、最小平均損失準則這里極易混淆,請讀者注意辨別。2、多個總體的距離判別其余的均保留系統(tǒng)默認選項。77,F(xiàn)2=3528.并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。判別分析內(nèi)容很豐富,方法很多。CanonicalDiscriminantFunctionCoefficients(給出未標(biāo)準化的典型判別函數(shù)系數(shù))把這類問題用數(shù)學(xué)語言來表達,可以敘述如下1、兩個總體的距離判別問題設(shè)有總體,具有概率密度函數(shù)實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標(biāo),這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。F1=3793.是設(shè)備B生產(chǎn)的產(chǎn)品,質(zhì)量一般的想法是計算新樣品X到兩個總體的馬氏距離D2(X,表4.4個案觀察結(jié)果表比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類第判別分析第判別分析68(優(yōu)選)第判別分析(優(yōu)選)第判別分析把這類問題用數(shù)學(xué)語言來表達,可以敘述如下設(shè)有k個m維總體(或類別)G1,G2,…,Gk,(1)、它們的分布特征已知,已知分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x);(2)、或知道來自各總體的樣本(訓(xùn)練樣本)。對給定的一個新樣本X(檢測樣本),判斷X來自哪一個總體(類)。把這類問題用數(shù)學(xué)語言來表達,可以敘述如下判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準則,如馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法距離判別法、Fisher判別法、Bayes判別法和逐步判別法。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分第二節(jié)距離判別法距離判別的基本思想樣本與哪一類總體的距離最近,就判別它屬于哪一類總體。第二節(jié)距離判別法距離判別的基本思想第二節(jié)距離判別法一馬氏距離的概念二距離判別三判別分析的實質(zhì)

第二節(jié)距離判別法一馬氏距離的概念二距離判已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)量高,平均耐磨程度為,設(shè)備精度的方差;是設(shè)備B生產(chǎn)的產(chǎn)品,質(zhì)量稍差,。現(xiàn)有一產(chǎn)品X,測得其耐磨度,試判斷該產(chǎn)品是哪一臺設(shè)備生產(chǎn)的?已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)一、馬氏距離的概念

一、馬氏距離的概念圖5.1圖5.1第判別分析課件設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不相交,且它們的和集為Rm,則稱D1,這時判別準則可以采用如下方法二Bayes判別的基本方法又D1,D2,…,Dk是Rm的一個劃分,判別法則為:點擊DefineRange按鈕,定義分組變量的取值范圍。未標(biāo)準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準化的系數(shù)要方便一些。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。三、線性判別函數(shù)的求法例如,將第一個待判樣品的自變量值分別代入函數(shù),得到按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;三、線性判別函數(shù)的求法這時判別準則可以采用如下方法第四節(jié)費歇(Fisher)判別法均損失g(D*)達到最小,即即當(dāng)樣本發(fā)生時,求他屬于某類的概率。方差;為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不二、距離判別 1、兩個總體的距離判別問題問題設(shè)有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值 分別是1和2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計算新樣品X到兩個總體的馬氏距離D2(X, G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷這個判別規(guī)則的等價描述為求新樣品X到G1的距離與到G2 的距離之差,如果其值為正,X屬于G2;否則X屬于G1。二、距離判別 1、兩個總體的距離判別問題首先考慮

時的判別方法首先考慮時的判別

第判別分析課件一、Fisher判別的基本思想單擊Continue按鈕。設(shè)有總體,具有概率密度函數(shù)。均損失g(D*)達到最小,即2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)4Classify…子對話框稍差,。按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;用L(j|i;D)表示由判別法D判別歸類時,將來自總體是設(shè)備B生產(chǎn)的產(chǎn)品,質(zhì)量返回判別分析主界面,單擊OK按鈕,運行判別分析過程。合密度函數(shù)為,先驗概率為,并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。2、多個總體的距離判別例如,將第一個待判樣品的自變量值分別代入函數(shù),得到先驗概率是一種權(quán)重(比例)。錯判損失為,則貝葉斯判別的解ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。這里我們應(yīng)該注意到一、Fisher判別的基本思想這里我們應(yīng)該注意到第判別分析課件2、多個總體的距離判別2、多個總體的距離判別三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。為了更清楚的認識判別分析的實質(zhì),以便能靈活的應(yīng)用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設(shè)D1,D2,…,Dk是m維空間Rm的k個子集,如果它們互不相交,且它們的和集為Rm,則稱D1,D2,…,Dk為Rm的一個劃分。這時判別準則可以采用如下方法三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變

這樣我們將會發(fā)現(xiàn),判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對m維空間Rm構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。

第三節(jié)貝葉斯(Bayes)判別法一Bayes判別的基本思想

二Bayes判別的基本方法

第三節(jié)貝葉斯(Bayes)判別法一Bayes判別的從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。 第一,判別方法與各總體出現(xiàn)的概率的大小無關(guān); 第二,判別方法沒有考慮錯判所造成的損失。

Bayes判別法就是為了解決這些問題而提出的一種判別方法。Bayes判別的基本思想從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的先驗概率先驗概率是一種權(quán)重(比例)。所謂“先驗”是指先于我們判斷決策之前。先驗概率的賦值方法1、利用歷史資料及經(jīng)驗進行估計;2、利用訓(xùn)練樣本中各類樣品占的比例估計;3、假定k個總體各自出現(xiàn)的概率相同,即1/k;先驗概率先驗概率先驗概率(二)主要運行結(jié)果解釋均損失g(D*)達到最小,即(注意這個選項不是要給出Fisher判別函數(shù)的系數(shù)。應(yīng)該使平均錯判損失最小。Predictedgroupmembership存放判別樣品所屬組別的值;這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。它表示把樣品X判歸的平均損失。32,F(xiàn)3=3882.77,F(xiàn)2=3528.2、針對多個總體的情形單擊Continue按鈕,返回主界面。為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾未標(biāo)準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準化的系數(shù)要方便一些。均損失g(D*)達到最小,即第二,判別方法沒有考慮錯判所造成的損失。點擊DefineRange按鈕,定義分組變量的取值范圍。辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。這一思想將在后面的各節(jié)中經(jīng)常出現(xiàn)。一Bayes判別的基本思想這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。77,F(xiàn)2=3528.在馬氏距離的基礎(chǔ)上,進一步考慮先驗概率及各組內(nèi)協(xié)方差陣的不同,定義樣品X到各總體的廣義平方距離為其中廣義平方距離(二)主要運行結(jié)果解釋在馬氏距離的基礎(chǔ)上,進一步考慮先驗概廣義平方距離判別準則

廣義平方距離判別準則Bayes判別準則一、最大后驗準則辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。Bayes判別準則一、最大后驗準則第判別分析課件第判別分析課件

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:判別規(guī)則則判給。設(shè)有總體二、最小平均損失準則

設(shè)有總體,具有概率密度函數(shù)并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為,其中又D1,D2,…,Dk是Rm的一個劃分,判別法則為:當(dāng)樣品X落入Di時,則判

關(guān)鍵的問題是尋找D1,D2,…,Dk劃分,這個劃分應(yīng)該使平均錯判損失最小。

二、最小平均損失準則設(shè)有總體錯判概率:P(j|i;D)

用P(j|i;D)表示由判別法D判別歸類時,將來自總體Gi的樣品錯判到總體Gj的概率。顯然

用L(j|i;D)表示由判別法D判別歸類時,將來自總體Gi的樣品錯判到總體Gj所造成的損失。錯判損失:L(j|i;D)錯判概率和錯判損失的估計!錯判概率:P(j|i;D)用P(j|i;D)表示由

定義如果有判別法D*,使得D*帶來的平均損失g(D*)達到最小,即則稱判別法D*符合貝葉斯判別準則,或稱D*為貝葉斯判別的解第判別分析課件定理設(shè)有k的總體,已知的聯(lián)合密度函數(shù)為,先驗概率為,錯判損失為,則貝葉斯判別的解為其中它表示把樣品X判歸的平均損失。定理設(shè)有k的總體

第四節(jié)費歇(Fisher)判別法一Fisher判別的基本思想

二Fisher判別函數(shù)的構(gòu)造

三線性判別函數(shù)的求法第四節(jié)費歇(Fisher)判別法一Fisher判別Fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進行分類判別。Fisher判別法是1936年提出來的,該方法的主要思想是通一、Fisher判別的基本思想

一、Fisher判別的基本思想二、Fisher判別函數(shù)的構(gòu)造

1、針對兩個總體的情形

二、Fisher判別函數(shù)的構(gòu)造 1、針對兩個總體的情形

2、針對多個總體的情形

2、針對多個總體的情形均損失g(D*)達到最小,即這里極易混淆,請讀者注意辨別。(二)主要運行結(jié)果解釋Bayes判別的基本思想二、最小平均損失準則稍差,。G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷錯判概率:P(j|i;D)并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為,其中2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。錯判概率:P(j|i;D)對給定的一個新樣本X(檢測樣本),判斷X來自哪一個總體(類)。用L(j|i;D)表示由判別法D判別歸類時,將來自總體按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;點擊DefineRange按鈕,定義分組變量的取值范圍。一、Fisher判別的基本思想2(a)未標(biāo)準化的典型判別函數(shù)系數(shù)

均損失g(D*)達到最小,即三、線性判別函數(shù)的求法

三、線性判別函數(shù)的求法

這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。

這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不第判別分析課件第五節(jié)實例分析與計算機實現(xiàn)這一節(jié)我們利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類?

X1

:0歲組死亡概率

X

4:55歲組死亡概率

X

2

:1歲組死亡概率

X5

:80歲組死亡概率

X

3

:10歲組死亡概率X6

:平均預(yù)期壽命第五節(jié)實例分析與計算機實現(xiàn)這一節(jié)我們利用SPSS對Fis表4.1各地區(qū)死亡概率表表4.1各地區(qū)死亡概率表

(一)操作步驟

1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將—變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。圖4.2判別分析主界面 (一)操作步驟圖4.2判別分析主界面 2.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。 3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個選項的含義如下Fisher’s給出Bayes判別函數(shù)的系數(shù)。(注意這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復(fù)選框的名字之所以為Fisher’s,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)Unstandardized給出未標(biāo)準化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認給出標(biāo)準化的Fisher判別函數(shù)系數(shù))。 2.點擊DefineRange按鈕,定義分組變量的取值單擊Continue按鈕,返回主界面。圖4.3Statistics子對話框單擊Continue按鈕,返回主界面。圖4.3Stat

4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,輸出一個判別結(jié)果表,包括每個樣品的判別分數(shù)、后驗概率、實際組和預(yù)測組編號等。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。圖4.4Classify…子對話框 4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸 5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義分別為Predictedgroupmembership存放判別樣品所屬組別的值;Discriminantscores存放Fisher判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;Probabilitiesofgroupmembership存放樣品屬于各組的Bayes后驗概率值。將對話框中的三個復(fù)選框均選中,單擊Continue按鈕返回。 5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)返回判別分析主界面,單擊OK按鈕,運行判別分析過程。D2,…,Dk為Rm的一個劃分。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。這里極易混淆,請讀者注意辨別。已知,兩類,是設(shè)備A生產(chǎn)的產(chǎn)品,質(zhì)錯判概率和錯判損失的估計!這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。點擊DefineRange按鈕,定義分組變量的取值范圍。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。用L(j|i;D)表示由判別法D判別歸類時,將來自總體這一節(jié)我們利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。判別分析內(nèi)容很豐富,方法很多。設(shè)有總體,具有概率密度函數(shù)。方差;在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括實際類(ActualGroup)、預(yù)測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。2、多個總體的距離判別第一,判別方法與各總體出現(xiàn)的概率的大小無關(guān);ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))第五節(jié)實例分析與計算機實現(xiàn)Predictedgroupmembership存放判別樣品所屬組別的值;一馬氏距離的概念

6.返回判別分析主界面,單擊OK按鈕,運行判別分析過程。圖4.5Save子對話

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論