多元統(tǒng)計(jì)分析判別分析_第1頁
多元統(tǒng)計(jì)分析判別分析_第2頁
多元統(tǒng)計(jì)分析判別分析_第3頁
多元統(tǒng)計(jì)分析判別分析_第4頁
多元統(tǒng)計(jì)分析判別分析_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

關(guān)于多元統(tǒng)計(jì)分析判別分析第1頁,課件共46頁,創(chuàng)作于2023年2月1.問題引入2.思路點(diǎn)撥3.判別分析方法4.DNA序列分類問題的求解5.參考文獻(xiàn)目錄第2頁,課件共46頁,創(chuàng)作于2023年2月

首先,我們來考慮一下2000年“網(wǎng)易杯”全國大學(xué)生數(shù)學(xué)建模競賽的A題是關(guān)于“DNA序列分類”的問題

1.問題引入第3頁,課件共46頁,創(chuàng)作于2023年2月

人類基因組中的DNA全序列是由4個(gè)堿基A,T,C,G按一定順序排成的長約30億的序列,毫無疑問,這是一本記錄著人類自身生老病死及遺傳進(jìn)化的全部信息的“天書”。但是,除了這四種堿基外,人們對它所包含的內(nèi)容知之甚少,如何破譯這部“天書”是二十一世紀(jì)最重要的任務(wù)之一。在這個(gè)目標(biāo)中,研究DNA全序列具有什么結(jié)構(gòu),由這4個(gè)字符排成的看似隨機(jī)的序列中隱藏著什么規(guī)律,又是解讀這部天書的基礎(chǔ),是生物信息學(xué)(Bioinformatics)最重要的課題之一。

第4頁,課件共46頁,創(chuàng)作于2023年2月雖然人類對這部“天書”知之甚少,但也發(fā)現(xiàn)了DNA序列中的一些規(guī)律性和結(jié)構(gòu)。例如,在全序列中有一些是用于編碼蛋白質(zhì)的序列片段,即由這4個(gè)字符組成的64種不同的3字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的20種氨基酸。又例如,在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些結(jié)果。此外,利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性,等等。這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對理解DNA全序列是十分有意義的。

第5頁,課件共46頁,創(chuàng)作于2023年2月作為研究DNA序列的結(jié)構(gòu)的嘗試,試對以下序列進(jìn)行分類:問題一:下面有20個(gè)已知類別的人工制造的序列(見附件1),其中序列標(biāo)號1—10為A類,11-20為B類。請從中提取特征,構(gòu)造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好。然后用你認(rèn)為滿意的方法,對另外20個(gè)未標(biāo)明類別的人工序列(標(biāo)號21—40)進(jìn)行分類,把結(jié)果用序號(按從小到大的順序)標(biāo)明它們的類別(無法分類的不寫入):

A類

;B類

。第6頁,課件共46頁,創(chuàng)作于2023年2月問題二:請對182個(gè)自然DNA序列(/mcm00/problems.htm)進(jìn)行分類。它們都較長。用你的分類方法對它們進(jìn)行分類,并給出分類結(jié)果。

看了這道題,我們應(yīng)當(dāng)從何處入手呢,我們應(yīng)該怎樣進(jìn)行分析呢……第7頁,課件共46頁,創(chuàng)作于2023年2月2.思路點(diǎn)撥細(xì)讀全題對未知事物進(jìn)行分類

問題的本質(zhì)對另外20個(gè)未標(biāo)明類別的DNA序列進(jìn)行分類根據(jù)所給的20個(gè)已知類別的DNA序列所提供的信息

對182個(gè)自然DNA序列進(jìn)行分類第8頁,課件共46頁,創(chuàng)作于2023年2月

如果將每一個(gè)DNA序列都看作樣本,那么該問題就進(jìn)一步提煉成一個(gè)純粹的數(shù)學(xué)問題:設(shè)有兩個(gè)總體(類)和,其分布特征(來自各個(gè)總體的樣本)已知,對給定的新品,我們需要判斷其屬于哪個(gè)總體(類)。對于上面的數(shù)學(xué)問題,可以用很多成熟的方法來解決,例如:(1)BP神經(jīng)網(wǎng)絡(luò);(2)聚類分析;(3)判別分析;等等。

第9頁,課件共46頁,創(chuàng)作于2023年2月

如何選取方法是建模過程中需要解決的另外一個(gè)問題:BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,它通過對訓(xùn)練樣本的學(xué)習(xí),提取樣本的隱含信息,進(jìn)而對新樣本的類別進(jìn)行預(yù)測。BP神經(jīng)網(wǎng)絡(luò)可以用以解決上面的DNA序列分類問題,但是,如何提取特征、如何提高網(wǎng)絡(luò)的訓(xùn)練效率、如何提高網(wǎng)絡(luò)的容錯(cuò)能力、如何建立網(wǎng)絡(luò)結(jié)構(gòu)是能否成功解決DNA序列分類問題的關(guān)鍵所在;聚類分析和判別分析都是多元統(tǒng)計(jì)分析中的經(jīng)典方法,都可以用來將對象(或觀測值)分成不同的集合或類別,但是,聚類分析更側(cè)重于“探索”對象(或觀測值)的自然分組方式,而判別分析則側(cè)重于將未知類別的對象(或觀測值)“歸結(jié)”(或者說,分配)到已知類別中。顯然,判別分析更適合用來解決上面的DNA序列分類問題。第10頁,課件共46頁,創(chuàng)作于2023年2月3.判別分析方法

判別分析是用于判別樣品所屬類別的一種多元統(tǒng)計(jì)分析方法。判別分析問題都可以這樣描述:設(shè)有個(gè)維的總體,其分布特征已知(如已知分布函數(shù)分別為或者已知來自各個(gè)總體的樣本),對給定的一個(gè)新樣品,我們需要判斷其屬于哪個(gè)總體。一般來說,根據(jù)判別規(guī)則的不同,可以得到不同的判別方法,例如,距離判別、貝葉斯(Bayes)判別、費(fèi)希爾(Fisher)判別、逐步判別、序貫判別等。這里,我們簡單介紹三個(gè)常用的判別方法:距離判別、貝葉斯(Bayes)判別和費(fèi)希爾(Fisher)判別。

第11頁,課件共46頁,創(chuàng)作于2023年2月判別分析方法1.距離判別2.貝葉斯(Bayes)判別3.費(fèi)希爾(Fisher)判別4.判別分析模型的顯著性檢驗(yàn)

第12頁,課件共46頁,創(chuàng)作于2023年2月3.1距離判別

距離判別的基本思想:樣品X離哪個(gè)總體的距離最近,就判斷X

屬于哪個(gè)總體。

這里的“距離”是通常意義下的距離(歐幾里得距離:在m

維歐幾里得空間R中,兩點(diǎn)與的歐幾里得距離,也就是通常我們所說的距離為)嗎?帶著這個(gè)疑問,我們來考慮這樣一個(gè)問題:第13頁,課件共46頁,創(chuàng)作于2023年2月

設(shè)有兩個(gè)正態(tài)總體,和,現(xiàn)在有一個(gè)新的樣品位于A處(參見圖1)

從圖中不難看出:,是否A處的樣品屬于總體呢?圖1第14頁,課件共46頁,創(chuàng)作于2023年2月

顯然不是,因?yàn)閺母怕实慕嵌葋砜?,總體的樣本比較分散,而總體的樣本則非常集中,因此處的樣品屬于總體的概率明顯大于屬于總體的概率,也就是說,處的樣品屬于總體的“可能性”明顯大于屬于總體的“可能性”!這也說明了用歐幾里得距離來度量樣品到總體距離的局限性。因此,需要引入新的距離概念——這就是下面給出的馬氏距離。第15頁,課件共46頁,創(chuàng)作于2023年2月定義1(馬氏距離):設(shè)總體G

為m

維總體(m個(gè)因素或指標(biāo)),其均值向量為(這里T表示轉(zhuǎn)置),協(xié)方差陣為,則樣品到總體G的馬氏距離定義為第16頁,課件共46頁,創(chuàng)作于2023年2月3.1.1兩總體的距離判別先考慮兩個(gè)總體()的情況。設(shè)有兩個(gè)總體和,和分別是和的協(xié)方差陣,和分別是和的均值。對于新的樣品,需要判斷它來自那個(gè)總體。設(shè)來自()的訓(xùn)練樣本為其中表示來自哪個(gè)總體,表示來自總體的樣本量。第17頁,課件共46頁,創(chuàng)作于2023年2月要判斷新樣品來自哪個(gè)總體,一般的想法是分別計(jì)算新樣品到兩個(gè)總體的馬氏距離和:

如果則判定;反之,如果則判定:即

……(1)

A.時(shí)的判別方法第18頁,課件共46頁,創(chuàng)作于2023年2月其中,,

為了得到更簡單的判別規(guī)則,我們下面計(jì)算新樣品到兩個(gè)總體的馬氏距離和的差第19頁,課件共46頁,創(chuàng)作于2023年2月顯然,判別規(guī)則(1)式等價(jià)于

……

(2)通常,稱為判別系數(shù)向量稱為線性判別函數(shù)。注意判別準(zhǔn)則(1)式或者(2)式將維空間劃分成兩部分:和也即。距離判別的實(shí)質(zhì)就是:給出空間的一個(gè)劃分和,如果樣品落入之中,則判定;如果樣品落入之中,則判定。第20頁,課件共46頁,創(chuàng)作于2023年2月

當(dāng)時(shí),根據(jù)判別準(zhǔn)則(1)式,我們同樣的給出判別函數(shù)為相應(yīng)的判別規(guī)則為

……(3)B.時(shí)的判別方法第21頁,課件共46頁,創(chuàng)作于2023年2月

在實(shí)際應(yīng)用中,總體的均值和協(xié)方差陣一般是未知的,我們所知道的僅僅是一組樣本或者觀測值,在這種情況下,就需要利用數(shù)理統(tǒng)計(jì)的知識,對進(jìn)行估計(jì)。利用已知樣本,易得的無偏估計(jì)分別為C.的估計(jì)

第22頁,課件共46頁,創(chuàng)作于2023年2月

對于多個(gè)總體的情況,可以類似于兩個(gè)總體的處理過程,我們給出如下的步驟:

第一步:計(jì)算樣品到每個(gè)總體的馬氏距離;第二步:比較的大小,將樣品判為距離最小的那個(gè)總體。如果均值為:和協(xié)方差:未知,可以類似兩個(gè)總體的情形運(yùn)用訓(xùn)練樣本來進(jìn)行估計(jì)。這里不再贅述。

3.1.2多總體的距離判別第23頁,課件共46頁,創(chuàng)作于2023年2月3.1.3距離判別的不足距離判別方法簡單實(shí)用,容易實(shí)現(xiàn),并且結(jié)論的意義明確。但是,距離判別沒有考慮:(1)各總體本身出現(xiàn)的可能性在距離判別中沒有考慮;(2)錯(cuò)判造成的損失在距離判別中也沒有考慮。在很多情況下,不考慮上面的兩種因素是不合理的。貝葉斯(Bayes)判別方法克服了距離判別的不足。第24頁,課件共46頁,創(chuàng)作于2023年2月與前面距離判別方法不同的是:所謂貝葉斯(Bayes)判別,就是在考慮各總體的先驗(yàn)概率和錯(cuò)判損失的情況下,給出空間的一個(gè)劃分:,使得運(yùn)用此劃分來判別歸類時(shí),所帶來的平均錯(cuò)判損失最小。3.2貝葉斯判別第25頁,課件共46頁,創(chuàng)作于2023年2月貝葉斯(Bayes)判別問題的數(shù)學(xué)描述為:設(shè)有個(gè)維的總體,其密度函數(shù)分別為,若已知這個(gè)總體各自出現(xiàn)的概率(先驗(yàn)概率)為(,且),假設(shè)已知將本來屬于總體的樣品錯(cuò)判為總體所造成的損失為。在這樣的情形下,對于新的樣品,需要判斷它來自那個(gè)總體。為了給出貝葉斯(Bayes)判別準(zhǔn)則,我們從下面幾個(gè)方面來討論:第26頁,課件共46頁,創(chuàng)作于2023年2月

先驗(yàn)概率表示對各總體的先知認(rèn)識,或者說,事先對所研究的問題所具有的認(rèn)識。一般來說,先驗(yàn)概率并不容易獲得,其更多的來自于長期累積的經(jīng)驗(yàn)。先驗(yàn)概率可以通過下面幾種賦值方法得到:基于經(jīng)驗(yàn)或者歷史資料進(jìn)行估計(jì);利用訓(xùn)練樣本中各種樣品所占的比例作為的值。其中表示第類總體的樣品數(shù),是總訓(xùn)練樣本數(shù),該方法要求訓(xùn)練樣本是通過隨機(jī)抽樣得到的;3.假定。A.確定先驗(yàn)概率第27頁,課件共46頁,創(chuàng)作于2023年2月

這里用表示將本來屬于總體的樣品錯(cuò)判為總體的概率,即誤判概率,顯然,根據(jù)概率的定義,易得:()……(4)實(shí)際上,(4)式的幾何意義是很明顯的,見圖2。

B.確定錯(cuò)判概率

圖2表示的是兩個(gè)正態(tài)總體的誤判概率示意圖。第28頁,課件共46頁,創(chuàng)作于2023年2月誤判概率的估計(jì)方法有以下幾種:(1)利用訓(xùn)練樣本為檢驗(yàn)集,用判別方法對訓(xùn)練樣本進(jìn)行判斷,統(tǒng)計(jì)誤判的樣本個(gè)數(shù),計(jì)算誤判樣本占總樣本的比例,并作為誤判概率的估計(jì)值;(2)當(dāng)訓(xùn)練樣本足夠大時(shí),從訓(xùn)練樣本中預(yù)留一部分作為檢驗(yàn)集,并記錄判錯(cuò)的比率,作為誤判概率的估計(jì)值;(3)運(yùn)用舍一法:每次預(yù)留一個(gè)樣本來檢驗(yàn),用剩下的樣本建立判別準(zhǔn)則,循環(huán)檢驗(yàn)完所有訓(xùn)練樣本,記錄判錯(cuò)的比率,以此作為誤判概率的估計(jì)值。第29頁,課件共46頁,創(chuàng)作于2023年2月C.確定錯(cuò)判損失錯(cuò)判必然帶來損失?,F(xiàn)實(shí)中,錯(cuò)判的損失一般來說很難定量給出。但是可以運(yùn)用賦值法來確定:(1)根據(jù)經(jīng)驗(yàn)或者實(shí)際問題的特征人為確定;(2)假設(shè)各種誤判損失都相等。第30頁,課件共46頁,創(chuàng)作于2023年2月

基于前面的討論,運(yùn)用概率知識:判別法將本來屬于總體的樣本錯(cuò)判給其它總體的平均損失為那么,關(guān)于先驗(yàn)概率的平均錯(cuò)判損失為

……(5)如果能找到使得平均損失達(dá)到最小,那么就稱為貝葉斯(Bayes)判別的解。

D.確定平均損失第31頁,課件共46頁,創(chuàng)作于2023年2月定理1:設(shè)有個(gè)總體:,已知的聯(lián)合密度函數(shù)為,先驗(yàn)概率為,錯(cuò)判損失為,則貝葉斯(Bayes)判別的解為

其中……(6)下面給出貝葉斯(Bayes)判別的解的主要結(jié)論

:第32頁,課件共46頁,創(chuàng)作于2023年2月3.3費(fèi)希爾判別費(fèi)希爾判別的基本思想:借助于方差分析的思想,利用投影將元的數(shù)據(jù)投影到某一個(gè)方向,使得投影后組與組之間的差異盡可能的大,然后根據(jù)一定的判別規(guī)則對新樣本的類別進(jìn)行判斷。首先構(gòu)造一個(gè)線性判別函數(shù)

……(7)可見上面的函數(shù)將元的數(shù)據(jù)投影到了一個(gè)方向,系數(shù)的確定原則是使得總體間的差異最大,總體內(nèi)部的離差最小。第33頁,課件共46頁,創(chuàng)作于2023年2月A.確定線性判別函數(shù)設(shè)有個(gè)元總體:,它們的均值為:;協(xié)方差為:。在的條件下,有

令 這里確定,使得個(gè)總體間的差異最大,總體內(nèi)部的離差最小,則應(yīng)該達(dá)到最大。第34頁,課件共46頁,創(chuàng)作于2023年2月為了確保的唯一性,不妨設(shè)。因此,問題轉(zhuǎn)化為:在條件約束下,求使得式達(dá)到最大——這是大家非常熟悉的條件極值的問題。根據(jù)拉格朗日乘子法:求解得……(8)由方程(8)第一式知,是的特征根,是相應(yīng)的特征向量??梢宰C明(的大小可以衡量判別函數(shù)的判別效果,故稱為判別效率)。設(shè)的非零特征根為,相應(yīng)的滿足約束條件的特征向量為,顯然,取時(shí)達(dá)到最大。第35頁,課件共46頁,創(chuàng)作于2023年2月B.確定判別規(guī)則

假設(shè)系數(shù)已經(jīng)求出,那么線性判別函數(shù)就完全確定下來,對于一個(gè)新的樣品,可以構(gòu)造下面的判別規(guī)則:

……(9)

第36頁,課件共46頁,創(chuàng)作于2023年2月3.4判別分析模型的顯著性檢驗(yàn)建立了判別分析模型以后還需要對模型進(jìn)行評價(jià),這就需要對判別分析模型的顯著性進(jìn)行檢驗(yàn),主要包括兩個(gè)方面:判別效果的檢驗(yàn)和各變量判別能力的檢驗(yàn)[1,2]。所謂判別效果的檢驗(yàn)就是檢驗(yàn)k個(gè)總體的均值是否有顯著的差異,反映了采用判別分析模型的有效性問題;各變量判別能力的檢驗(yàn)反映的是各指標(biāo)(因素)對判別分類所起的作用時(shí)候顯著。具體的檢驗(yàn)方法因?yàn)檫^于復(fù)雜,這里不再贅述。需要說明的是,作為多元統(tǒng)計(jì)分析中的經(jīng)典方法,判別分析在許多關(guān)于多元統(tǒng)計(jì)分析的教材中均有詳細(xì)而深刻的論述。第37頁,課件共46頁,創(chuàng)作于2023年2月4.DNA序列分類問題的求解關(guān)于DNA序列分類問題的討論和分析,我們在第1部分和第2部分已經(jīng)作了詳細(xì)的分析和討論。這里,我們將根據(jù)多元統(tǒng)計(jì)分析的知識建立判別分析模型來求解DNA序列的分類問題(這里只求解問題一)。首先,需要提取每條序列的所蘊(yùn)含的特征——因?yàn)閷⑿蛄械娜啃畔⒍甲鳛橹笜?biāo)(因素)來建立判別模型是不可能的。第38頁,課件共46頁,創(chuàng)作于2023年2月A.特征的提取

DNA序列中所蘊(yùn)含的信息是非常豐富的,因此,如何提取特征、提取什么特征是一個(gè)非常困難的問題——這個(gè)問題涉及到生物學(xué)的知識,此處將不深入展開討論。我們考慮采用序列中4個(gè)堿基A,T,C,G的含量百分比作為DNA序列的特征。為了便于討論,我們用表示堿基A在序列中所占的百分比;表示堿基T在序列中所占的百分比;表示堿基C在序列中所占的百分比;表示堿基G在序列中所占的百分比。因?yàn)椋?++=1,因此、、和中只有三個(gè)變量是獨(dú)立的,不失一般性,我們選取、和為指標(biāo),以表示第個(gè)DNA序列的特征向量,換句話說,“完全”代表第個(gè)DNA序列。第39頁,課件共46頁,創(chuàng)作于2023年2月

正如前面第2部分中所分析的:在此DNA序列分類問題中,共有兩個(gè)已知的總體(類)(A類)和(B類),而且,訓(xùn)練樣本共有個(gè),其中,前10個(gè)樣本(記為)屬于總體(類);后10個(gè)樣本(記為)屬于總體(類)。需要解決的問題是:對給定的新樣品,我們需要判斷其屬于哪個(gè)總體(類)。第40頁,課件共46頁,創(chuàng)作于2023年2月B.建立判別模型

這里分別建立距離判別和費(fèi)希爾(Fisher)判別模型。(1)距離判別模型在距離判別模型中,首先需要估計(jì)總體(類)和的均值和協(xié)方差陣,運(yùn)用前面3.1.1小節(jié)的公式,可以得到均值和協(xié)方差陣的無偏估計(jì)。然后,計(jì)算樣本到總體(類)和的馬氏距離;根據(jù)判別準(zhǔn)則(1),可得:若,則判定為A類;若,則判定為B類。

第41頁,課件共46頁,創(chuàng)作于2023年2月(2)費(fèi)希爾判別模型

首先,確定判別函數(shù)利用費(fèi)希爾(Fisher)判別準(zhǔn)則,可以求出確定了判別函數(shù),就可以根據(jù)費(fèi)希爾(Fisher)判別準(zhǔn)則(9)式,判斷新的DNA序列的類別問題了。

第42頁,課件共46頁,創(chuàng)作于2023年2月C.模型求解和軟件實(shí)現(xiàn)判別分析的計(jì)算機(jī)實(shí)現(xiàn)是非常簡單的,運(yùn)用Matlab和SPSS等軟件都可以進(jìn)行判別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論