應(yīng)用多元統(tǒng)計分析(R語言版)PPT完整全套教學(xué)課件_第1頁
應(yīng)用多元統(tǒng)計分析(R語言版)PPT完整全套教學(xué)課件_第2頁
應(yīng)用多元統(tǒng)計分析(R語言版)PPT完整全套教學(xué)課件_第3頁
應(yīng)用多元統(tǒng)計分析(R語言版)PPT完整全套教學(xué)課件_第4頁
應(yīng)用多元統(tǒng)計分析(R語言版)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩327頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章緒論應(yīng)用多元統(tǒng)計分析

-

1-第1章緒論第2章多元正態(tài)抽樣分布第3章多元正態(tài)總體的假設(shè)檢驗第4章判別分析第5章聚類分析第6章主成分分析第7章因子分析第8章對應(yīng)分析第9章典型相關(guān)分析

多元統(tǒng)計分析是研究多個隨機(jī)變量之間相互依賴關(guān)系及內(nèi)在統(tǒng)計規(guī)律的一門統(tǒng)計學(xué)科,其內(nèi)容既包括一元統(tǒng)計理論方法的推廣,也包括多個隨機(jī)變量特有的一些理論和方法,后者有大量的實際應(yīng)用背景。

在實際問題中,涉及到的隨機(jī)變量往往有多個,且這些變量之間又存在一定的聯(lián)系。例如,一個國家的經(jīng)濟(jì)狀況需要用多個指標(biāo)來刻畫。人的體能需要用年齡、體重、肺活量等多項指標(biāo)來反映。

1.1多元統(tǒng)計分析概述

例1.1考察學(xué)生的學(xué)習(xí)情況時,需要了解學(xué)生在幾個主要科目的學(xué)習(xí)成績,等等。表1.1給出20名中學(xué)生5門主課期末考試成績。我們希望根據(jù)表1.1提供的數(shù)據(jù)對這20名學(xué)生的學(xué)習(xí)情況進(jìn)行評價。多元統(tǒng)計分析概述

如果用一元統(tǒng)計方法,需要對各門課程成績分別分析。這樣處理,由于忽視了課程之間可能存在的相關(guān)性,因此會丟失許多信息,分析的結(jié)果不能客觀全面地反映學(xué)生的真實學(xué)習(xí)情況。

如果采用多元分析方法,可以同時對多門課程的成績進(jìn)行綜合分析,給出比較客觀和全面的分析結(jié)果。多元統(tǒng)計分析概述

多元統(tǒng)計分析的內(nèi)容和方法主要有以下幾個方面。1.多元統(tǒng)計理論基礎(chǔ)

包括多維隨機(jī)向量,特別是多維正態(tài)隨機(jī)向量,以及由此定義的各種統(tǒng)計量的分布及其性質(zhì),多元統(tǒng)計分布理論。

2.多元統(tǒng)計推斷

包括多元正態(tài)總體的參數(shù)估計和假設(shè)檢驗問題,特別是均值向量和協(xié)方差陣的估計和假設(shè)檢驗等問題。

3.變量之間的相互關(guān)系

(1)多元回歸分析:分析變量之間的因果關(guān)系,建立一個變量或幾個變量與另一些變量的定量關(guān)系式,并用于預(yù)測或控制。(2)典型相關(guān)分析:分析兩組變量之間的相關(guān)關(guān)系。多元統(tǒng)計分析概述

4.分類與判別問題

(1)判別分析:根據(jù)觀測到的樣品數(shù)據(jù)(訓(xùn)練樣本),按相似程度大小對所考察的樣品或變量進(jìn)行分類(歸類),常稱其為“有監(jiān)督的分類問題”。(2)聚類分析:對觀測到的數(shù)據(jù),按相似程度大小對樣品或變量進(jìn)行分類。常稱其為“無監(jiān)督的分類問題”。5.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)

將高維數(shù)據(jù)降為低維數(shù)據(jù),使數(shù)據(jù)結(jié)構(gòu)得到有效簡化,并在此基礎(chǔ)上分析變量之間或樣品之間的復(fù)雜關(guān)系。這類問題的統(tǒng)計方法包括主成分分析、因子分析以及對應(yīng)分析,等等。多元統(tǒng)計分析概述

多元統(tǒng)計分析起源于20世紀(jì)初,1928年Wishart發(fā)表的一篇論文《多元正態(tài)總體樣本協(xié)方差陣的精確分布》被公認(rèn)為是多元統(tǒng)計的開端。之后Fisher、Hotelling、Roy和許寶騄等著名統(tǒng)計學(xué)家的開創(chuàng)性工作,使多元統(tǒng)計分析在理論上得到了迅速發(fā)展,并在許多領(lǐng)域得到實際應(yīng)用。但是,由于使用多元統(tǒng)計方法解決實際問題時需要的計算量很大,使其發(fā)展受到一定限制。多元統(tǒng)計分析概述

到了20世紀(jì)中后期,隨著電子計算機(jī)的出現(xiàn)和發(fā)展,使得多元統(tǒng)計分析方法在自然科學(xué)和社會科學(xué)的許多領(lǐng)域得到廣泛的應(yīng)用,并由此帶來其理論的進(jìn)一步發(fā)展。另一方面,不斷提出一些新理論、方法和技術(shù),又促使其應(yīng)用范圍進(jìn)一步擴(kuò)大。21世紀(jì)初,隨著現(xiàn)代信息技術(shù)的高速發(fā)展和廣泛應(yīng)用,人類進(jìn)入了大數(shù)據(jù)時代。多元統(tǒng)計分析概述

海量數(shù)據(jù)和超高維數(shù)據(jù)的大量涌現(xiàn),對統(tǒng)計理論、方法和技術(shù)的發(fā)展提出新的挑戰(zhàn)。近年來,我國學(xué)者在多元統(tǒng)計分析的理論研究和應(yīng)用方面取得了顯著成績,有不少研究工作已達(dá)到國際領(lǐng)先水平,并形成許多高水平的科研團(tuán)隊,活躍在各個領(lǐng)域。多元統(tǒng)計分析概述

1.2多元數(shù)據(jù)的直觀表示

多元數(shù)據(jù)可以通過圖形直觀表示,以便對所研究的數(shù)據(jù)的直觀了解。另一方面,對具體問題的多元分析結(jié)果或過程也可以通過圖形來展示,以便人們對分析結(jié)果或計算過程有直觀的理解。本章主要介紹多元數(shù)據(jù)的幾個常用直觀表示方法,對于多元分析的結(jié)果或過程的直觀表示方法,將在本書后面幾章介紹的各種多元分析方法中介紹。內(nèi)容與要求內(nèi)容:

包括輪廓圖、散布矩陣圖、均值條形圖、箱線圖、星相圖、臉譜圖、調(diào)和曲線圖等圖形。要求:

要求學(xué)生了解多元數(shù)據(jù)的直觀表示方法及多變量圖形的一些特點,并掌握一些復(fù)雜的多元數(shù)據(jù)的圖示技術(shù)。多元數(shù)據(jù)的直觀表示多元數(shù)據(jù)的直觀表示說明與舉例

說明:

圖形有助于對所研究數(shù)據(jù)的直觀了解,如果能把一些多元數(shù)據(jù)直接繪圖顯示,便可從圖形一目了然看出多元變量之間的關(guān)系。

例1.2

為了研究全國31個省、市、自治區(qū)2018年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調(diào)查資料做區(qū)域消費類型劃分。多元數(shù)據(jù)的直觀表示

指標(biāo):食品x1:人均食品支出(元/人)衣著x2:人均衣著商品支出(元/人)居住x3:人均居住支出(元/人)生活x4:人均家庭設(shè)備用品及服務(wù)支出(元/人)交通x5:人均交通和通訊支出(元/人)教育x6:人均娛樂教育文化服務(wù)支出(元/人)醫(yī)療x7:人均醫(yī)療保健支出(元/人)其他x8:人均雜項商品和服務(wù)支出(元/人)地區(qū)x1x2x3x4x5x6x7x8北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3河北4271.31257.44050.41138.72355.41734.51540.5373.8山西3688.21261.03228.5855.61845.21940.01635.1356.4內(nèi)蒙古5324.31751.23680.01204.63074.32245.41847.5537.9遼寧5727.81628.14169.51259.42968.22708.02257.1680.2吉林4417.41397.03294.8899.42479.72193.42012.0506.7黑龍江4573.21405.43176.3866.42196.62030.32235.3490.4上海10728.22036.814208.52095.54881.25049.43070.21281.5江蘇6529.81541.06731.21493.33522.82582.62016.4590.4浙江8198.31813.57721.21652.44302.03031.32059.4692.6安徽5414.71137.43941.91041.22082.11810.41224.0392.8福建7572.91212.16130.01223.12923.32194.01234.8505.8江西4809.01074.13795.21047.71872.11813.01000.0381.0山東5030.91391.83928.51394.32834.32174.41627.6398.1河南3959.81172.83512.01054.41838.01769.11541.5321.0湖北5491.31316.24310.61253.22584.12187.51907.9487.0湖南5260.01215.53976.11190.22322.92786.21705.5351.5廣東8480.81135.36643.31440.83423.92750.91520.8658.2廣西4545.7616.73268.5898.22150.11798.91364.6291.9海南6552.2655.93744.0826.61919.02185.51236.1409.2重慶6220.81454.53498.81338.92545.02087.81660.0442.8四川5937.91173.83368.01182.22398.81599.71568.6434.5貴州3792.9934.72760.7878.12408.01660.01083.5280.1云南3983.4789.13081.1859.92212.81772.71267.7283.2西藏4330.51285.22102.6622.31847.7609.3460.1262.6陜西4292.51141.13388.21200.82005.82008.81749.4373.2甘肅4253.31111.53095.0896.91640.71710.31573.9342.4青海4671.61350.62990.0932.02671.41655.61842.0444.0寧夏4234.11388.23014.31067.12724.42139.51727.1420.4新疆4691.61456.02894.31082.82274.41762.51592.6434.9

數(shù)據(jù)輸入:數(shù)據(jù)R語言讀取X=read.table('biao1.2.txt',header=T)

直觀分析:圖示法

pairs(X)###畫散布矩陣圖從該圖可以看出,食品支出與生活用品及服務(wù)支出、教育及文化娛樂支出之間存在顯著線性相關(guān)關(guān)系,而教育及文化娛樂支出又與居住支出、其他支出之間存在顯著線性相關(guān)關(guān)系,等等。多元數(shù)據(jù)的直觀表示

均值條圖

多元數(shù)據(jù)的直觀表示

樣品(行)的均值條圖#按行做均值條形圖barplot(apply(X,1,mean))

均值條圖

多元數(shù)據(jù)的直觀表示

指標(biāo)(列)的均值條圖#按行做均值條形圖barplot(apply(X,2,mean))

箱線圖

多元數(shù)據(jù)的直觀表示

箱線圖

用途:Tukey提出的箱線圖由箱子和其上引出的兩個尾組成,這種圖用來表示在一定時間內(nèi)一個班成績的變化、物體位置的變化、原材料的變化、產(chǎn)品標(biāo)準(zhǔn)的變化等。

特征:箱線圖可以比較清晰地表示數(shù)據(jù)的分布特征,它由4部分組成。

R語言函數(shù):boxplot(X,...)

箱尾圖

多元數(shù)據(jù)的直觀表示boxplot(X)#按列做垂直箱線圖boxplot(X,horizontal=T)#水平箱線圖從該圖可以看出,食品消費支出遠(yuǎn)高于其它指標(biāo)的支出。

星相圖

多元數(shù)據(jù)的直觀表示

星相圖

用途:它將每個變量的各個觀察單位的數(shù)值表示為一個圖形,n個觀察單位就有n個圖,每個圖的每個角表示每個變量。

特征:星相圖是雷達(dá)圖的多元表示形式。

R語言函數(shù):stars(X,draw.segments=FALSE,key.loc=NULL,...)星相圖

多元數(shù)據(jù)的直觀表示#簡單星相圖stars(X)

星相圖

多元數(shù)據(jù)的直觀表示#帶圖例度彩色星相圖stars(X,key.loc=c(17,7),draw.segments=T)

#加載aplpack包library(aplpack)#按每行7個做臉譜圖faces(X,ncol.plot=7)臉譜圖:運用樣本各變量值構(gòu)造臉的各部位,通過分析臉部位大小或形狀來分析各樣本數(shù)據(jù)特征

臉譜圖

多元數(shù)據(jù)的直觀表示#加載mvstats包library(mvstats)plot.andrews(X)調(diào)和曲線圖:使用高維空間中的一個樣本對應(yīng)于二維平面上的一條曲線的方法分析數(shù)據(jù)特征

調(diào)和曲線圖

多元數(shù)據(jù)的直觀表示####也可以直接從鏡像站加載andrews包繪制調(diào)和曲線圖library(andrews)andrews(X,type=3,clr=5,ymax=3)調(diào)和曲線圖:使用高維空間中的一個樣本對應(yīng)于二維平面上的一條曲線的方法分析數(shù)據(jù)特征

調(diào)和曲線圖

多元數(shù)據(jù)的直觀表示

第2章多元正態(tài)抽樣分布應(yīng)用多元統(tǒng)計分析

-

25-

在多元統(tǒng)計分析中,多元正態(tài)分布占有相當(dāng)重要的地位。這是因為,許多實際問題涉及到的隨機(jī)向量服從正態(tài)分布或近似服從正態(tài)分布;當(dāng)樣本量很大時,許多統(tǒng)計量的極限分布往往和正態(tài)分布有關(guān)。此外,對多元正態(tài)分布,理論與實踐都比較成熟,已有一整套行之有效的統(tǒng)計推斷方法。

基于這些理由,我們在介紹多元統(tǒng)計分析的種種具體方法之前,首先介紹多元正態(tài)分布的定義、性質(zhì)及多元正態(tài)分布中參數(shù)的估計問題。第2章多元正態(tài)抽樣分布

多元統(tǒng)計分析討論的是多變量總體。以p個隨機(jī)變量作為分量構(gòu)成的向量稱為p維隨機(jī)向量。如果我們同時對p個變量作一次觀測,得到觀測值,它是一個樣品。如果我們觀察n次得到n個樣品品,而n個樣品就構(gòu)成一個樣本。

2.1隨機(jī)向量

常把n個樣品排成一個n×p矩陣,稱為樣本數(shù)據(jù)矩陣(或樣本資料陣),記為

2.1隨機(jī)向量

在多元統(tǒng)計分析理論中涉及到的向量一般都是隨機(jī)向量,或是由多個隨機(jī)向量構(gòu)成的隨機(jī)矩陣。均值向量和協(xié)方差陣

設(shè)是一個隨機(jī)向量。稱向量為隨機(jī)向量X的均值向量。稱矩陣為隨機(jī)向量X的協(xié)方差矩陣,其中。

2.1隨機(jī)向量均值向量和協(xié)方差陣

設(shè)是另一個隨機(jī)向量。稱矩陣為隨機(jī)向量X與Y的協(xié)方差矩陣,其中

2.1隨機(jī)向量均值向量和協(xié)方差陣

若為X的協(xié)方差陣,則稱為X的相關(guān)陣,其中若記,則有

2.1隨機(jī)向量均值向量和協(xié)方差陣的性質(zhì)性質(zhì)1.

設(shè)X和Y是適當(dāng)維數(shù)的隨機(jī)向量,A和B是適當(dāng)階數(shù)的常數(shù)矩陣,則有

2.1隨機(jī)向量均值向量和協(xié)方差陣的性質(zhì)性質(zhì)2.

若X

與Y

相互獨立,則;反之則不一定成立。性質(zhì)3.

隨機(jī)向量X的協(xié)方差陣是對稱非負(fù)定矩陣。性質(zhì)4.,其中L為非負(fù)定矩陣,稱為的平方根矩陣,記為,即。

證明由于,利用實對稱非負(fù)定矩陣的對角化原理,存在正交矩陣,使得

2.1隨機(jī)向量均值向量和協(xié)方差陣的性質(zhì)

2.1隨機(jī)向量其中這里為的特征值,為的與對應(yīng)的單位正交特征向量。均值向量和協(xié)方差陣的性質(zhì)性質(zhì)5.,其中A為列滿秩矩陣,若則A為非退化矩陣。

定理2.1

設(shè),則其中表示矩陣B

的跡。

2.1隨機(jī)向量多元正態(tài)分布的定義和性質(zhì)

定義2.1.設(shè)為隨機(jī)向量,其中相互獨立,同服從標(biāo)準(zhǔn)正態(tài)分布。設(shè)為p維常數(shù)向量,A為常數(shù)矩陣,則稱向量所服從的分布為p維正態(tài)分布,并稱X為p維正態(tài)隨機(jī)向量,記為,或簡記為,其中。

性質(zhì)1.設(shè),B為常數(shù)矩陣,d為s維常數(shù)向量。令,則性質(zhì)1說明,正態(tài)隨機(jī)向量的任意線性組合仍然服從正態(tài)分布。

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

推論2.1.設(shè)將分塊為則。此推論說明,多元正態(tài)分布的邊緣分布仍為正態(tài)分布。但反之不一定成立(例如見例2.1)。

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

例2.2.設(shè)其中求的分布,這里

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

性質(zhì)2.若,則。此性質(zhì)給出多元正態(tài)分布中參數(shù)的明確統(tǒng)計意義。

性質(zhì)3.

設(shè)相互獨立,且為任意常數(shù)。則

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

性質(zhì)4.設(shè)則

性質(zhì)5.

設(shè)則X的密度函數(shù)為其中是p維向量。

2.2多元正態(tài)分布條件分布和獨立性

設(shè)將分塊為由推論2.1可知

定理2.2.設(shè)則與獨立,當(dāng)且僅當(dāng)。

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

定理2.3.設(shè)分塊為則給定時,的條件分布為其中

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

推論2.4.在定理2.3條件下有(1)與相互獨立;(2)與相互獨立;(3)其中

2.2多元正態(tài)分布多元正態(tài)分布的定義和性質(zhì)

例2.4.設(shè)其中試求已知時的條件分布。

2.2多元正態(tài)分布樣本均值向量和樣本協(xié)方差陣

設(shè)為來自總體的一個隨機(jī)樣本,且。記樣本數(shù)據(jù)矩陣為下面我們引入樣本均值向量、樣本離差陣、樣本協(xié)方差陣和樣本相關(guān)陣。

2.3多元抽樣分布樣本均值向量和樣本協(xié)方差陣

樣本均值向量為其中為的樣本均值。

2.3多元抽樣分布樣本均值向量和樣本協(xié)方差陣

樣本離差陣為其中

2.3多元抽樣分布樣本均值向量和樣本協(xié)方差陣

樣本協(xié)方差陣為其中稱為變量的樣本方差,稱其算術(shù)平方根為變量的樣本標(biāo)準(zhǔn)差。

2.3多元抽樣分布樣本均值向量和樣本協(xié)方差陣

樣本相關(guān)陣為其中

2.3多元抽樣分布樣本均值向量和樣本協(xié)方差陣

定理2.4.設(shè)和A分別為來自總體的樣本均值向量和樣本離差陣,則

(1)

(2)A可表示為其中獨立同服從分布;(3)和A相互獨立。

2.3多元抽樣分布極大似然估計及其性質(zhì)

設(shè)為來自正態(tài)分布的一個隨機(jī)樣本,且。本節(jié)我們討論參數(shù)和的極大似然估計。為此我們把樣本的聯(lián)合密度函數(shù)視為和的函數(shù),并稱其為似然函數(shù),即

2.4極大似然估計

2.4極大似然估計極大似然估計及其性質(zhì)由于我們有

2.4極大似然估計極大似然估計及其性質(zhì)

2.4極大似然估計極大似然估計及其性質(zhì)得到和的極大似然估計為其中

因為故是的無偏估計。

2.4極大似然估計極大似然估計及其性質(zhì)

又由定理2.4可得因此的極大似然估計不是的無偏估計,而才是的無偏估計。常稱為樣本均值,S為樣本協(xié)方差陣。

2.4極大似然估計

第3章多元正態(tài)總體的假設(shè)檢驗應(yīng)用多元統(tǒng)計分析

-

57-

在一元正態(tài)總體中,關(guān)于參數(shù)的假設(shè)檢驗涉及到一個總體和多個總體情況,推廣到多元正態(tài)總體,關(guān)于參數(shù)的假設(shè)檢驗問題也涉及一個總體和多個總體情況。本章我們只討論關(guān)于均值向量的假設(shè)檢驗問題。

在多元統(tǒng)計中,用于檢驗的抽樣分布有維希特(Wishart)分布、霍特林(Hotelling)分布和威爾克斯(Wilks)分布,它們都是由來自多元正態(tài)總體的樣本構(gòu)成的統(tǒng)計量。在第2章中,我們已經(jīng)討論了維希特分布的定義和性質(zhì),本章我們討論后兩個統(tǒng)計量的分布。第3章多元正態(tài)總體的假設(shè)檢驗霍特林分布在一元統(tǒng)計中,若,且相互獨立,則或等價地下面把的分布推廣到多元正態(tài)總體。

定義3.1設(shè),,其中,且與相互獨立。則稱統(tǒng)計量為統(tǒng)計量,其分布稱為自由度為n的霍特林分布,記為

3.1

幾個重要統(tǒng)計量的分布

分布的性質(zhì)

性質(zhì)1設(shè)是來自正態(tài)總體的隨機(jī)樣本,和A分別是樣本均值向量和樣本離差陣,則

性質(zhì)2分布與F分布的關(guān)系為:若則

3.1

幾個重要統(tǒng)計量的分布

分布的性質(zhì)

性質(zhì)3

設(shè)是來自正態(tài)總體的隨機(jī)樣本,和A分別是樣本均值向量和樣本離差陣,記則

性質(zhì)4分布只與n,p有關(guān),而與無關(guān)。

3.1

幾個重要統(tǒng)計量的分布威爾克斯分布

定義3.2設(shè),稱協(xié)方差陣的行列式為的廣義方差。若是來自總體的隨機(jī)樣本,A為樣本離差陣,則稱或為樣本廣義方差。

定義3.3

設(shè),這里,且與獨立,則稱廣義方差比為統(tǒng)計量,其分布稱為威爾克斯分布,記為。當(dāng)p=1時,分布正是一元統(tǒng)計中參數(shù)為的貝塔分布,即。

3.1幾個重要統(tǒng)計量的分布

分布的性質(zhì)

性質(zhì)1

當(dāng)時,若,則

性質(zhì)2

當(dāng)時,若,則

3.1

幾個重要統(tǒng)計量的分布性質(zhì)3

當(dāng)p=1時,性質(zhì)4

當(dāng)p=2時,

性質(zhì)5若,則當(dāng)時有下列極限分布其中。

3.1幾個重要統(tǒng)計量的分布

下面是分布的兩個有用性質(zhì)。

性質(zhì)6若,則存在,且之間相互獨立,使得

性質(zhì)7若則

3.1幾個重要統(tǒng)計量的分布單總體均值向量的假設(shè)檢驗設(shè)總體為,為來自該總體的隨機(jī)樣本。欲檢驗下列假設(shè):其中為已知常數(shù)向量。

1.當(dāng)已知時均值向量的假設(shè)檢驗此時

3.2單總體均值向量的統(tǒng)計推斷于是有若檢驗統(tǒng)計量取為則當(dāng)原假設(shè)成立時,。按照傳統(tǒng)的檢驗方法,對于給定的顯著性水平,由分布分位數(shù)表查得,使得,則拒絕域為。若由樣本觀測值計算的值為,則當(dāng)時拒絕,否則接受。

3.2單總體均值向量的統(tǒng)計推斷2.當(dāng)未知時均值向量的假設(shè)檢驗對于一元統(tǒng)計,上述假設(shè)的檢驗統(tǒng)計量為其中,當(dāng)成立時。與上述統(tǒng)計量等價的一個檢驗統(tǒng)計量為推廣到多元情況,對于正態(tài)總體,考慮統(tǒng)計量當(dāng)成立時,由定義3.1及分布的性質(zhì)1可知

3.2單總體均值向量的統(tǒng)計推斷再利用與F分布的關(guān)系,檢驗統(tǒng)計量取為當(dāng)成立時,若取顯著性水平為,則拒絕域為,其中是自由度為的F分布上側(cè)分位數(shù)。

例3.1人的出汗多少與人體內(nèi)鈉和鉀的含量有一定的關(guān)系。今測量了20名健康女性的出汗量()、鈉的含量()和鉀的含量(),數(shù)據(jù)見表3.1。試檢驗假設(shè)(取):

3.2單總體均值向量的統(tǒng)計推斷

表3.1成年女性的出汗量及其體內(nèi)鈉和鉀的含量數(shù)據(jù)

3.2單總體均值向量的統(tǒng)計推斷序號x1x2x3序號x1x2x313.748.59.3113.936.912.724.765.18.0124.558.812.333.847.210.9133.527.89.843.253.212.0144.540.28.453.155.59.7151.513.510.164.636.17.9168.556.47.172.424.814.0174.571.68.287.233.17.6186.552.810.996.747.48.5194.144.111.2105.454.111.3205.540.99.4

記隨機(jī)向量,并假定。檢驗統(tǒng)計量為其中。由表3.1中的樣本觀察值計算得到及進(jìn)一步計算可得

3.2單總體均值向量的統(tǒng)計推斷

對于給定的顯著性水平,由F分布的分位數(shù)表查得。由于,故接受原假設(shè)。由上述F值,根據(jù)檢驗統(tǒng)計量的分布,可利用統(tǒng)計軟件計算出檢驗的p值為該p值大于0.05,因此應(yīng)接受原假設(shè)。

置信域

在一元統(tǒng)計中,討論均值的假設(shè)檢驗問題本質(zhì)上等價于求均值的置信區(qū)間。作為一元統(tǒng)計中置信區(qū)間的推廣,下面簡單討論單個多元正態(tài)總體均值向量的置信域。

3.2單總體均值向量的統(tǒng)計推斷設(shè)是來自總體的隨機(jī)樣本,和A分別為樣本均值向量和樣本離差陣,則由分布的性質(zhì)1可知有其中為樣本協(xié)方差陣,并且由分布與F分布的關(guān)系可知有因此,對于給定的置信度,查F分布的分位數(shù),滿足則均值向量的置信度為的置信域為

3.2單總體均值向量的統(tǒng)計推斷該置信域是中心位于的一個橢球,稱為置信橢球。兩總體均值向量的假設(shè)檢驗協(xié)方差陣相等時均值向量的假設(shè)檢驗

設(shè)是來自總體的隨機(jī)樣本,是來自總體的隨機(jī)樣本,且兩個總體相互獨立,方差陣未知。要檢驗假設(shè)檢驗統(tǒng)計量為

3.3

多總體均值向量的統(tǒng)計推斷這里和分別是由來自兩個總體的樣本組成的樣本離差陣。

由分布定義3.1可知,當(dāng)上面的原假設(shè)成立時有利用分布與F分布的關(guān)系,檢驗統(tǒng)計量可取為

3.3

多總體均值向量的統(tǒng)計推斷

例3.3

對某地區(qū)農(nóng)村2周歲嬰兒的身高(x1)、胸圍(x2)和上半臂圍(x3)進(jìn)行測量(單位:cm),樣本數(shù)據(jù)如表3.2所示,其中序號1至6為6名男嬰的測量數(shù)據(jù),7至15號為9名女嬰的測量數(shù)據(jù)。試檢驗?zāi)信畫雰褐g身體特征是否有顯著差異。表3.2某地區(qū)農(nóng)村2周歲嬰兒的體格測量數(shù)據(jù)

3.3

多總體均值向量的統(tǒng)計推斷編號x1x2x3編號x1x2x317860.616.597860.315.027658.112.5107557.413.039263.214.5117959.514.048159.014.0127858.114.558160.815.5137558.012.568459.514.0146455.511.078058.414.0158059.212.587559.215.0

比較男女嬰兒之間身體特征是否有顯著差異問題,就是兩總體均值向量是否相等的假設(shè)檢驗問題。記男嬰的三個身體指標(biāo)為總體X,并設(shè)。記女嬰的三個身體指標(biāo)為總體Y,并設(shè)。來自兩個總體的樣本容量為。欲檢驗的假設(shè)為檢驗統(tǒng)計量為其中,由樣本觀測值計算得

3.3

多總體均值向量的統(tǒng)計推斷進(jìn)一步計算可得取顯著性水平為,查F分布表得。因,故不能拒絕原假設(shè),即認(rèn)為兩個總體均值向量無顯著差異。事實上,由檢驗統(tǒng)計量的觀測值,可以算出此檢驗的p值為由于該p值比較大,因此應(yīng)接受原假設(shè)。

3.3

多總體均值向量的統(tǒng)計推斷多元方差分析

設(shè)有k個總體,從第i個總體抽取容量為的樣本。欲檢驗下列假設(shè)不全相等。類似于一元情況,令其中這里。再令則

3.3

多總體均值向量的統(tǒng)計推斷其中

采用似然比方法可以得到檢驗統(tǒng)計量由于且之間相互獨立,由維希特分布的可加性得又在成立條件下,可以證明

3.3

多總體均值向量的統(tǒng)計推斷且A與B相互獨立,于是根據(jù)分布的定義可知有對于給定的顯著性水平,拒絕域為,其中是分布的分位數(shù),滿足。分布的分位數(shù)表可以從一些文獻(xiàn)中找到,但在許多情況下,分布的分位數(shù)可以通過分布與F分布的關(guān)系,并通過F分布的分位數(shù)表而得到。

3.3

多總體均值向量的統(tǒng)計推斷

第4章判別分析應(yīng)用多元統(tǒng)計分析

-

82-判別分析是用于判斷樣品所屬類型的一種統(tǒng)計方法。判別分析方法處理的問題看起來與聚類分析方法有些類似,似乎都是要將觀察值進(jìn)行分類,但是它們的使用前提是不同的。判別分析是根據(jù)某些指標(biāo)的已有數(shù)據(jù)(或稱為訓(xùn)練樣本)對所研究的對象建立判別函數(shù),并進(jìn)行分類的一種多變量分析方法,也稱之為“有監(jiān)督的分類方法”。進(jìn)行判別歸類時,由假設(shè)前提、判別依據(jù)及處理手法的不同可采用不同的判別方法。如距離判別、貝葉斯(Bayes)判別、費希爾(Fisher)判別等。第4章判別分析概念和方法判別分析概念判別分析方法

是在已知的分類之下,對新的樣品,利用某判別準(zhǔn)則,來判定其屬于哪個類。

判別分析(DiscriminatAnalysis)是多元分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法。第4章判別分析主要內(nèi)容判別分析的目的和意義幾種判別分析方法和性質(zhì)

包括:距離判別法、Bayes判別法、Fisher判別法R語言程序中有關(guān)判別分析的算法第4章判別分析

所謂判別問題,就是將歐幾里德空間劃分為k個互不相交的區(qū)域,即。當(dāng)時,就判斷x屬于總體。特別是,當(dāng)k=2時,就是兩總體的判別問題。

距離判別是最簡單、最直觀的一種判別方法,也是最常用的一種判別方法,該方法適用于連續(xù)型隨機(jī)變量的判別,對變量的概率分布沒有要求。

4.1距離判別

定義4.1

設(shè)是從均值向量為,協(xié)方差陣為的總體G中抽取的兩個樣品,則與之間的馬氏距離定義為樣品與總體G之間的馬氏距離為4.1距離判別兩總體的距離判別

設(shè)總體和的均值向量分別為和,協(xié)方差陣分別為和,x是一個新樣品,現(xiàn)在要判斷x來自哪一個總體??捎嬎鉿到兩個總體的馬氏距離的平方和,并按照下列判別準(zhǔn)則進(jìn)行判別:當(dāng)兩個總體的方差相等,即時,該判別準(zhǔn)則可以進(jìn)行簡化。

4.1距離判別

1.當(dāng)時的線性判別

此時其中是兩個總體均值的平均值。令

其中,則。4.1距離判別因此判別準(zhǔn)則可簡化為:其中稱為判別函數(shù),由于它是的線性函數(shù),故又稱它為線性判別函數(shù)。4.1距離判別

在實際中,總體的均值向量和協(xié)方差陣一般都是未知的,此時可用樣本均值向量和樣本協(xié)方差陣來代替。設(shè)是來自總體的樣品,是來自總體的樣品,則樣品均值向量和樣品離差陣為的由兩個總體樣品構(gòu)成的無偏估計為4.1距離判別

2.當(dāng)時的非線性判別

此時判別函數(shù)為與之差,即由于這個是x的二次函數(shù),故又稱它為二次判別函數(shù)或非線性判別函數(shù)。相應(yīng)的判別準(zhǔn)則為4.1距離判別

與前面討論的情況相同,在實際中總體均值向量和協(xié)方差陣往往未知,需要用樣本均值向量和樣本協(xié)方差陣來代替,這里分別是和的無偏估計。4.1距離判別例4.1

在研究砂基液化問題中,選了7個因子。今從液化和未液化的地層中分別抽取12個和23個樣品,數(shù)據(jù)列在表4.1中,其中1類表示已液化類,2類表示未液化類。試按照距離判別準(zhǔn)則對原35個樣本進(jìn)行分類(即回代),并分析誤判情況。4.1距離判別表4.1砂基液化原始分類數(shù)據(jù)編號類別G116.6391.06.060.1220216.6391.06.0120.1220316.1471.06.060.0812416.1471.06.0120.0812518.4322.07.5190.3575617.261.07.0280.3030718.41133.56.0180.1575817.5521.06.0120.1640917.5523.57.560.16401018.31130.07.5350.121801117.81721.03.5140.21451217.81721.53.0150.21451328.4321.05.040.35751428.4322.09.0100.35751528.4322.54.0100.35751626.3114.57.530.20151727.084.54.590.25301827.086.07.540.25301927.081.56.010.25302028.31611.54.040.08702128.31610.52.510.08702227.263.54.0120.30302327.261.03.030.30302427.261.06.050.30302525.562.53.070.18182628.41133.54.560.1575#############首先對表4.1中數(shù)據(jù)建立文本文件biao4.1.txtlibrary(MASS)###加載程序包li4.1=read.table("biao4.1.txt",head=TRUE)###讀入數(shù)據(jù)##################################################線性判別ld1<-lda(G~.,data=li4.1);ld1###方差相同條件下的線性判別y1<-predict(ld1,data=li4.1)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG1=y1$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.1$G,y1$x,newG1)###顯示判別結(jié)果##################################################非線性判別qd1<-qda(G~.,data=li4.1);qd1###方差不同條件下的二次判別y2<-predict(qd1,data=li4.1)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG2=y2$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.1$G,newG2)###顯示判別結(jié)果4.1距離判別

解:利用R程序進(jìn)行運算。線性判別結(jié)果4.1距離判別Groupmeans:

x1x2x3x4x5x6x717.35833373.666671.4583336.0000015.2500000.171666749.5000027.68695769.608702.0434785.239136.3478260.215652270.34783Coefficientsoflineardiscriminants:X1X2X3X4X5X6X7-0.24564980.00125460.2132494-0.1895015-0.19451528.91250000.0195838cbind(li4.1$G,y1$x,newG1)###顯示結(jié)果序號GLD1newG序號GLD1newG11-0.978064511921.3184485221-2.145155712020.2547354231-1.358373812120.9092838241-2.525465012220.3782688251-0.901731012321.7852837261-3.835602212420.8277489271-1.783971012520.4401957281-1.601754812620.8344636291-0.185792422720.44543322101-4.30786241282-0.43466362111-0.89663631292-1.10794621121-0.889776113022.059148021322.276501323122.592271321420.564653723221.165660621521.618785623321.662713821620.721250023420.659485321720.686327123520.341864021821.41027272

非線性判別結(jié)果4.1距離判別Groupmeans:

x1x2x3x4x5x6x717.35833373.666671.4583336.0000015.2500000.171666749.5000027.68695769.608702.0434785.239136.3478260.215652270.34783

cbind(li4.1$G,newG2)###顯示結(jié)果序號GnewG序號GnewG序號GnewG序號GnewG11110111922282221111112022292231112112122302241113222222312251114222322322261115222422332271116222522342281117222622352291118222722

線性判別函數(shù):本例中。經(jīng)計算得線性判別函數(shù)為

,其系數(shù)向量為

4.1距離判別判別結(jié)果:

(1)在方差相同條件下的線性判別結(jié)果:將訓(xùn)練樣本回代判別,結(jié)果有2個樣本點判錯,分別是第9號和第29號樣本。即在方差相同條件下,誤判率為2/35=5.7%。

(2)在方差不同條件下的非線性判別結(jié)果:將訓(xùn)練樣本回代判別,結(jié)果全部正確,即此誤判率為零。4.1距離判別

多總體的距離判別

設(shè)有k個總體,它們的均值分別為協(xié)方差陣分別為,x到的馬氏距離的平方為判別準(zhǔn)則為:判定,若在實際中和往往未知,此時可用相應(yīng)的估計來代替。4.1距離判別

例4.2

某地市場上銷售的電視機(jī)有多種品牌,該地某商場隨機(jī)抽取了20種牌子的電視機(jī)進(jìn)行調(diào)查,發(fā)現(xiàn)其中有5種暢銷、8種平銷、7種滯銷。按電視機(jī)的質(zhì)量評分Q、功能評分C、銷售價格P(單位:百元)收集數(shù)據(jù),列在表4.2中,其銷售狀態(tài)G中元素1表示暢銷,元素2表示平銷,元素3為滯銷。試根據(jù)該資料進(jìn)行判別。假設(shè)有一新廠商來推銷其產(chǎn)品,產(chǎn)品質(zhì)量評分為8.0,功能評分為7.5,銷售價格為65(百元),問該廠家產(chǎn)品銷售前景如何?4.1距離判別4.1距離判別

表4.2某地電視機(jī)銷售數(shù)據(jù)編號類別GQCP118.34.029219.57.068318.05.039417.47.050518.86.555629.07.558727.06.075829.28.082928.07.0671027.69.0901127.28.5861226.47.0531327.35.0481436.02.0201536.44.0391636.85.0481735.23.0291835.83.5321935.54.0342036.04.536#############首先對表4.2中數(shù)據(jù)建立文本文件biao4.2.txtlibrary(MASS)###加載程序包li4.2=read.table("biao4.2.txt",head=TRUE)###讀入數(shù)據(jù)ld2<-lda(G~.,data=li4.2);ld2###方差相同條件下的線性判別y1<-predict(ld2,data=li4.2)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG1=y1$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.2$G,y1$x,newG1)###顯示判別結(jié)果z1<-predict(ld2,data.frame(Q=8,C=7,P=65));z1###對新數(shù)據(jù)進(jìn)行預(yù)測qd2<-qda(G~.,data=li4.2);qd2###方差不同條件下的二次判別y2<-predict(qd2,data=li4.2)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG2=y2$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.2$G,newG2)###顯示判別結(jié)果z2<-predict(qd2,data.frame(Q=8,C=7,P=65));z2##對新數(shù)據(jù)進(jìn)行預(yù)測4.1距離判別

解:利用R程序進(jìn)行運算。線性判別結(jié)果4.1距離判別cbind(li4.2$G,y1$x,newG1)###顯示結(jié)果No.GLD1LD2newG111-0.14099842.582951755121-2.39183560.825366275131-0.37044521.641514840141-0.97148350.548448277151-1.71348911.246681993162-2.45935981.3615711741720.3789617-2.200431689282-2.5581070-0.467096091292-1.1900285-0.4129720272102-1.7638874-2.3823023242112-1.1869165-2.4855749402122-0.1123680-0.59888392221320.33991320.23286339731432.84565610.93672257331531.55923460.02566821631630.7457802-0.20916815931733.0062824-0.35898953431832.25117080.00885206731932.2108260-0.33120676832031.52109390.0359848853各組均值及非線性判別結(jié)果4.1距離判別Groupmeans:

QCP18.4000005.90000048.20027.7125007.25000069.87535.9571433.71428634.000

cbind(li4.2$G,newG2)###顯示結(jié)果No.1234567891011121314151617181920G11111222222223333333newG11111222222233333333判別結(jié)果:

(1)在方差相同條件下的線性判別結(jié)果:將訓(xùn)練樣本回代判別,結(jié)果有2個樣本點判錯,分別是第6號和第13號樣本。即在方差相同條件下,誤判率為2/20=10%。對新廠家產(chǎn)品銷售前景預(yù)測結(jié)果為Q=2,即平銷。

(2)在總體方差不同條件下的非線性判別結(jié)果:將訓(xùn)練樣本回代判別,結(jié)果有1個樣本點判錯,即第13號樣本。因此在方差不同條件下,誤判率為1/20=5%。對新廠家產(chǎn)品銷售前景預(yù)測結(jié)果為Q=2,即平銷。4.1距離判別

距離判別只利用總體的特征信息,即均值向量和協(xié)方差陣,不涉及總體的分布類型。該判別方法有兩個缺點:一是該方法與總體出現(xiàn)的機(jī)會大?。ㄏ闰灨怕剩o關(guān);二是該方法沒有考慮錯判造成的損失。貝葉斯判別正是為解決這兩個問題而提出的一種判別方法。貝葉斯統(tǒng)計方法總是假定對所研究的對象已有一些認(rèn)識,常用先驗概率分布來描述這種認(rèn)識。當(dāng)抽取一個樣本后,再利用樣本信息來修正已有的認(rèn)識,得到后驗概率分布。各種統(tǒng)計推斷都是基于后驗分布而進(jìn)行。將貝葉斯統(tǒng)計思想用于判別分析就得到貝葉斯判別方法。4.2貝葉斯判別距離判別的缺點:貝頁斯判別準(zhǔn)則:一是判別方法與各總體出現(xiàn)的概率無關(guān);二是判別方法與錯判后造成的損失無關(guān)。以個體歸屬于某類的概率(或判別值)最大,或錯判總平均損失最小為標(biāo)準(zhǔn)。4.2貝葉斯判別

貝頁斯判別準(zhǔn)則一、概率判別(不考慮誤判損失)假設(shè)k個類的先驗概率為各類的密度函數(shù)分別為x來自第j類的后驗概率為(貝頁斯公式)4.2貝葉斯判別判別準(zhǔn)則為

貝頁斯判別準(zhǔn)則二、損失判別(考慮誤判損失)

x錯判為來自第j個類的平均損失:這里是樣品實際來自第i個類但被錯判為屬于第j個類的損失。

4.2貝葉斯判別損失判別準(zhǔn)則為:

貝頁斯判別準(zhǔn)則對于兩總體情況損失判別準(zhǔn)則可簡化為:這里

4.2貝葉斯判別

例4.3

設(shè)總體和的概率密度函數(shù)分別為和,又假設(shè)誤判損失為,根據(jù)以往經(jīng)驗給出的先驗概率為。根據(jù)貝葉斯判別準(zhǔn)則(4.5)得到的劃分為若一個新樣品的密度函數(shù)值為,則因此判斷屬于總體。4.2貝葉斯判別

例4.4

設(shè)有三個總體,欲判斷某樣品屬于哪個總體。已知屬于各個總體的判別概率為:由于最大,故在不考慮誤判損失情況下應(yīng)判斷。4.2貝葉斯判別

例4.5

在例4.4中,假定誤判的損失矩陣為現(xiàn)在采用平均損失最小規(guī)則進(jìn)行判別。各個總體的判別函數(shù)值為:4.2貝葉斯判別由于最小,故在考慮誤判損失情況下應(yīng)判斷。

4.2貝葉斯判別這個判別結(jié)果與例4.4不同。

利用R軟件進(jìn)行貝葉斯判別與距離判別方法類似,只需加上先驗概率。在進(jìn)行貝葉斯判別時,可假定各類方差陣相同,即采用線性判別方法,或假定各類方差陣不同,即采用非線性判別方法。

例4.6

應(yīng)用貝葉斯判別方法分析例4.2中的數(shù)據(jù)。

取先驗概率為各類比例,即設(shè)4.2貝葉斯判別li4.6=read.table("biao4.2.txt",head=TRUE)###讀入數(shù)據(jù)library(MASS)###加載程序包ld3<-lda(G~.,prior=c(5,8,7)/20,data=li4.6);ld3###方差相同條件下的Bayes判別y3<-predict(ld3,data=li4.6)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG3<-y3$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.6$G,y3$x,newG3)###顯示結(jié)果table(li4.6$G,y3$class)###混淆矩陣z3<-predict(ld3,data.frame(Q=8,C=7,P=65));z3###對新數(shù)據(jù)進(jìn)行預(yù)測qd3<-qda(G~.,prior=c(5,8,7)/20,data=li4.6);qd3###方差不同條件下的二次判別y4<-predict(qd3,data=li4.6)###對原始數(shù)據(jù)進(jìn)行預(yù)測,即回代newG4<-y4$class###預(yù)測原始數(shù)據(jù)所屬類別cbind(li4.6$G,newG4)###顯示結(jié)果table(li4.6$G,y4$class)###混淆矩陣z4<-predict(qd3,data.frame(Q=8,C=7,P=65));z4###對新數(shù)據(jù)進(jìn)行預(yù)測4.2貝葉斯判別利用R程序進(jìn)行運算。線性判別結(jié)果Groupmeans:cbind(li4.1$G,y1$x,newG1)###顯示結(jié)果QCP18.4000005.90000048.20027.7125007.25000069.87535.9571433.71428634.000No.GLD1LD2newG111-0.14099842.582951755121-2.39183560.825366275131-0.37044521.641514840141-0.97148350.548448277151-1.71348911.246681993162-2.45935981.3615711741720.3789617-2.200431689282-2.5581070-0.467096091292-1.1900285-0.4129720272102-1.7638874-2.3823023242112-1.1869165-2.4855749402122-0.1123680-0.59888392221320.33991320.23286339731432.84565610.93672257331531.55923460.02566821631630.7457802-0.20916815931733.0062824-0.35898953431832.25117080.00885206731932.2108260-0.33120676832031.52109390.0359848853table(li4.6$G,y3$class)###混淆矩陣

1231500216130074.2貝葉斯判別非線性判別結(jié)果Groupmeans:cbind(li4.1$G,newG2)###顯示結(jié)果QCP18.4000005.90000048.20027.7125007.25000069.87535.9571433.71428634.000No.1234567891011121314151617181920G11111222222223333333newG11111222222233333333table(li4.6$G,y4$class)###混淆矩陣

1231500207130074.2貝葉斯判別判別結(jié)果:

(1)在總體方差相同條件下的判別結(jié)果:將訓(xùn)練樣本回代,判別結(jié)果有2個點判錯,分別是第6號和第13號樣本。即在方差相同條件下,誤判率為2/20=10%。對新廠家產(chǎn)品銷售前景預(yù)測結(jié)果為Q=2,即平銷。

(2)在總體方差不同條件下的判別結(jié)果:將訓(xùn)練樣本回代,判別結(jié)果有1個點判錯,即第13號樣本。因此在方差不同條件下,誤判率為1/20=5%。對新廠家產(chǎn)品銷售前景預(yù)測結(jié)果為Q=2,即平銷。4.2貝葉斯判別費希爾判別的基本思想:費希爾(Fisher)判別的基本思想是投影,或降維。對于來自不同總體(類)的高維數(shù)據(jù),選擇若干個好的投影方向?qū)⑺鼈兺队盀榈途S數(shù)據(jù),使得這些來自不同類的低維數(shù)據(jù)之間有比較清晰的界限。對于新樣品對應(yīng)的高維數(shù)據(jù)點,也將其以同樣方向投影為一個低維數(shù)據(jù)點,然后再利用一般的距離判別方法判斷其屬于哪一類。而衡量類與類之間是否分開的方法借助于一元方差分析的思想。4.3費希爾斯判別費希爾判別的基本思想:

需要指出的是,在大數(shù)據(jù)時代,隨著計算能力和信息技術(shù)的快速發(fā)展和廣泛應(yīng)用,人們需要處理大量的金融、生物、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等海量數(shù)據(jù),這些數(shù)據(jù)往往是高維的,因此需要采用費希爾判別方法并借助現(xiàn)代統(tǒng)計軟件技術(shù)進(jìn)行判別分析和數(shù)據(jù)處理。利用R軟件進(jìn)行費希爾判別與距離判別方法相同,實際上lda函數(shù)和qda函數(shù)的算法程序采用了費希爾判別的降維過程。4.3費希爾斯判別

例4.7

費希爾于1936年發(fā)表的鳶(yuan)尾花(iris)數(shù)據(jù)被廣泛地作為判別分析的例子。該數(shù)據(jù)集是R軟件的自帶數(shù)據(jù)(iris)。數(shù)據(jù)中包含150個樣品的三種鳶尾花:剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花。現(xiàn)在從各類中各抽取一個容量為50的樣品,測量其花萼長()、花萼寬()、花瓣長()、花瓣寬(),單位為mm。試對該數(shù)據(jù)進(jìn)行判別分析。

本題中,。4.3費希爾斯判別X=iris[,1:4]G=gl(3,50)attach(X)library(MASS)###Fisher線性判別ld=lda(G~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width);ldplot(ld)###繪制圖4.2Z1=predict(ld)newG1=Z1$classcbind(G,Z1$x,newG1)###顯示結(jié)果(判別結(jié)果與真實類型對照)(tab1=table(G,newG1))###混淆矩陣sum(diag(prop.table(tab1)))###判對率4.3費希爾斯判別利用R程序進(jìn)行運算。###Fisher非線性判別qd=qda(G~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width);qdZ2=predict(qd)newG2=Z2$classcbind(G,newG2)###顯示結(jié)果(判別結(jié)果與真實類型對照)(tab2=table(G,newG2))###混淆矩陣sum(diag(prop.table(tab2)))###判對率4.3費希爾斯判別利用R程序進(jìn)行運算。4.3費希爾斯判別費希爾線性判別結(jié)果:Groupmeans:

Sepal.LengthSepal.WidthPetal.LengthPetal.Width15.0063.4281.4620.24625.9362.7704.2601.32636.5882.9745.5522.026Coefficientsoflineardiscriminants:

LD1LD2Sepal.Length0.82937760.02410215Sepal.Width1.53447312.16452123Petal.Length-2.2012117-0.93192121Petal.Width-2.81046032.83918785(tab1=table(G,newG1))###混淆矩陣

NewG1

123G15000

20482

30149

sum(diag(prop.table(tab1)))###判對率[1]0.98由上述計算結(jié)果得4.3費希爾斯判別中心化的費希爾判別函數(shù)為

我們首先采用費希爾線性判別方法,在各類方差陣相同條件下對判別函數(shù)的觀察數(shù)據(jù)采用距離判別法。我們可以將樣品中150個4維向量的判別函數(shù)得分畫成散點圖4.2。圖中LD1和LD2分別指和。從圖4.2可以看出,分離的效果不錯,特別是將第一類與其它兩類清晰地分離。正如我們所預(yù)期的那樣,三個類的分離很大程度上展現(xiàn)在坐標(biāo)軸上。對于某個新品,將其坐標(biāo)代入上述判別函數(shù),即可得到一個點,將其也畫在上面的散點圖上,即可直觀地判斷出它屬于哪一類。4.3費希爾斯判別4.3費希爾斯判別

利用兩個判別函數(shù)計算得到的三個類的均值為即三個類的判別函數(shù)值的中心點分別為,和。我們可以計算150個4維向量的費希爾判別函數(shù)值與上述三個類的中心點的歐氏距離,并根據(jù)距離最小的規(guī)則回判它們屬于哪一類。結(jié)果表明,150個點中有147個判斷正確,只有3個判錯,誤判率為,效果不錯。

其次采用費希爾非線性判別方法,即在各類方差陣不相同條件下對判別函數(shù)的觀察數(shù)據(jù)采用距離判別法。回判結(jié)果與采用費希爾線性判別方法得到的結(jié)果相同,即誤判率也是。4.3費希爾斯判別1.判別分析方法是按已知所屬類的訓(xùn)練樣本確定判別函數(shù),制定判別規(guī)則,然后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論