逐步判別分析_第1頁
逐步判別分析_第2頁
逐步判別分析_第3頁
逐步判別分析_第4頁
逐步判別分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、逐步判別分析一、逐步判別分析的基本思想在判別問題中,當(dāng)判別變量個數(shù)較多時,如果不加選擇地一概采用來建立判別函數(shù),不僅計算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計算精度下降,建立的判別函數(shù)不穩(wěn)定。因此適當(dāng)?shù)睾Y選變量的問題就成為一個很重要的事情。凡具有篩選變量能力的判別分析方法就統(tǒng)稱為逐步判別法。逐步判別法和通常的判別分析一樣,也有許多不同的原則,從而產(chǎn)生各種方法。這里討論的逐步判別分析方法是在多組判別分析基礎(chǔ)上發(fā)展起來的一種方法,判別準(zhǔn)則為貝葉斯判別函數(shù),其基本思路類似于逐步回歸分析,采用“有進(jìn)有出”的算法,即按照變量是否重要,從而逐步引入變量,每引入一個“最重要”的變量進(jìn)入判別式,同

2、時要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個變量的組合所代替),應(yīng)及時從判別式中把它剔除,直到判別式中沒有不重要的變量需要剔除,剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結(jié)束。也就是說每步引入或剔除變量,都作相應(yīng)的統(tǒng)計檢驗,使最后的貝葉斯判別函數(shù)僅保留“重要”的變量。二、逐步判別的基礎(chǔ)理論對判別變量附加信息的檢驗根據(jù)逐步判別分析的基本思想,進(jìn)行判別分析需要解決兩個關(guān)鍵的問題,一個是引入或剔除判別變量的依據(jù)和檢驗問題;另外則是判別函數(shù)的及時導(dǎo)出的問題。其中的理論基礎(chǔ)又在于如何對判別變量在區(qū)別各個總體中是否提供附加信息的檢驗。

3、為此這里先給出如何對判別變量在區(qū)別各個總體中是否提供附加信息進(jìn)行檢驗的基礎(chǔ)理論。設(shè)有個總體,相應(yīng)抽出樣品個數(shù)為每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下, 第1個總體的樣本數(shù)據(jù)為: 第2個總體的樣本數(shù)據(jù)為:第個總體的樣本數(shù)據(jù)為:和多組判別分析一樣,假定各組的樣品都是相互獨立的正態(tài)隨機(jī)向量,各組的協(xié)方差矩陣都一樣,即其中,為組第個樣品的第個變量,為組的均值向量,為協(xié)方差矩陣。再令全部樣品的總均值向量為:各個總體的樣品的均值向量為:于是,樣品的組內(nèi)離差陣為:樣品的總離差陣為:為了對這個總體建立判別函數(shù),需要檢驗:當(dāng)被接受時,說明區(qū)分這個總體是沒有什么意義的,在此基礎(chǔ)上建立的判別函數(shù)效果不好。當(dāng)被否定時,說明

4、個總體可以區(qū)分,建立的判別函數(shù)有意義。但是為了達(dá)到區(qū)分這個總體的目的,原來選擇的個指標(biāo)是否可以減少而達(dá)到同樣的判別效果,為此,也就要去掉一些對區(qū)分個總體不帶附加信息的變量。對于上述問題的檢驗,可以采用維爾克斯統(tǒng)計量(Wilks)來進(jìn)行:而的極限分布是服從于大樣本的。 為了進(jìn)一步考慮這一問題,把個變量分解為兩個部分,如果通過某種步驟已經(jīng)選中了個變量,我們要檢驗增加第個變量后對區(qū)分總體是否提供了附加信息,即對第個變量的“判別能力”進(jìn)行檢驗。為此,將矩陣、進(jìn)行分塊:于是前個變量的維爾克斯統(tǒng)計量(Wilks)為當(dāng)增加第個變量后,個變量的維爾克斯統(tǒng)計量(Wilks)為,所以有,即統(tǒng)計量的極限分布是。用此

5、統(tǒng)計量來檢驗給定前個變量的條件下,增加第個變量的條件均值是否相等,即是否對區(qū)分總體提供附加信息。三、引入和剔除變量的依據(jù)和檢驗統(tǒng)計量在上述理論基礎(chǔ)上,下面給出,判別分析中引入變量和剔除變量的依據(jù)和檢驗方法。(1)假定我們已經(jīng)計算了步,并且已經(jīng)引入了,現(xiàn)對第步添加一個新變量的“判別能力”進(jìn)行檢驗,為此將變量分為兩組,第一組是前個已經(jīng)引入的變量,第二組僅有一個變量,將這個變量的組內(nèi)離差陣和總離差陣仍分別記為與。其中,其中,所以維爾克斯統(tǒng)計量令,有由附加信息檢驗準(zhǔn)則,則引入變量的依據(jù)是,引入變量的檢驗統(tǒng)計量為它服從于分布。在未選入變量中,選擇使達(dá)到最小值的變量,當(dāng)時,則認(rèn)為變量提供了附加信息,即的判

6、別能力顯著,由此將作為入選變量。對已入選的個變量中,要考慮較早選入的變量中其重要性有沒有較大變化,應(yīng)及時把不能提供附加信息的變量剔除,剔除的原則同于引進(jìn)變量。(2)如果第步是剔除變量,第步剔除變量的能力等價于第步引入的判別能力,令,則相應(yīng)的剔除變量的依據(jù)是,剔除變量的檢驗統(tǒng)計量為它服從于分布。 如果對于某個變量,使得在已經(jīng)入選的變量中的具有最大值,并且滿足,則認(rèn)為變量不能提供附加信息了,即的判別能力不顯著,由此應(yīng)該將從入選變量中剔除。四、求解判別函數(shù)中的矩陣變換為求判別函數(shù),逐步判別在計算上采用的是“求解求逆緊湊變換法”將變量逐步引入或剔除,每引入或剔除一個變量稱為逐步判別的一步。設(shè)初始的組內(nèi)

7、離差矩陣為(),初始的總的離差矩陣為(),從它們開始,每步施行一次變換,假如已經(jīng)進(jìn)行了步,引入了個變量,則第步無論是引入還是剔除變量,都要進(jìn)行如下的變化:逐步判別過程,就是不斷的引入和剔除變量的過程,可以證明,前三步都只引入,而不必考慮剔除,在以后的各步中則首先考慮剔除,如果不能剔除則再考慮引入,當(dāng)既不能剔除又不能引入時,逐步計算的過程即告終止,將已選中的變量建立判別函數(shù)。五、建立判別式,對樣品判別分類假設(shè)最終引入了個變量,并得到最終變換矩陣,則第組的判別函數(shù)為:已入選變量。其中,式中的為第組的先驗概率,一般采用樣品頻率代替,已入選變量。已入選變量為第組第個變量的均值。將每個樣品(可以是新樣品也可以是原來的樣品)分別代入個判別式中,若,則屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論