多元總體和多元樣本_第1頁
多元總體和多元樣本_第2頁
多元總體和多元樣本_第3頁
多元總體和多元樣本_第4頁
多元總體和多元樣本_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元總體和多元樣本第1頁,課件共61頁,創(chuàng)作于2023年2月從總體中隨機抽取進行觀測的對象叫做樣本。

一個樣本單元的觀測結(jié)果(p個數(shù)值)可以看作這個p元變量的一次取值,第i號樣本單元的第α個屬性的觀測結(jié)果記為xαi每個樣本單元,例如第i號樣本單元,可以得到p個觀測值,用一個p維向量來表示。

因為p維向量是歐氏空間中的一個點,所以通常也把一個樣本單元叫做一個(樣本)點。因此,一個樣本單元,一個p維向量,或p維空間中一個點,是同一個東西,分別為研究對象的實體,代數(shù)表示或幾何表示。第2頁,課件共61頁,創(chuàng)作于2023年2月

對n個樣本單元進行觀測的全部結(jié)果,共有p×n個數(shù)據(jù),為了方便,用一個矩陣來表示,

矩陣X是進行各種統(tǒng)計分析的基礎(chǔ)資料,稱為原始數(shù)據(jù)矩陣或(多元)樣本數(shù)據(jù)。

第3頁,課件共61頁,創(chuàng)作于2023年2月例:總體(身高,體重,成績)樣本(n=4)第4頁,課件共61頁,創(chuàng)作于2023年2月二、定量數(shù)據(jù)和定性數(shù)據(jù)

變量基本上可以分為二類:

1.一類變量取值為實數(shù),稱為定量數(shù)據(jù)

例如長度、百分含量等,這一類變量的觀測值稱為定量數(shù)據(jù)。

2.另一類變量不是表示為數(shù)量,而是表示樣本是否具有某種性質(zhì),但它們可數(shù)量化。

例如研究的對象是出生嬰兒的比例,可以這樣記錄:當樣本具有這種屬性(例如為女嬰)記為1,當樣本沒有這種屬性(例如為男嬰)時,記為0,這里的1或0并不表示觀測對象的數(shù)量關(guān)系,只是表示觀測對象具有某種屬性。

這種觀測數(shù)據(jù)叫做0、1型數(shù)據(jù),或定性數(shù)據(jù)。

第5頁,課件共61頁,創(chuàng)作于2023年2月還有一種情況是變量的觀測結(jié)果是表示某種等級的編號,例如某天的下雨情況可以分為無、小、中、大四個等級,自然可以用0、1、2、3分別表示這四個等級.這是界于定量數(shù)據(jù)與定性數(shù)據(jù)之間的一種數(shù)據(jù)(分級數(shù)字)。有時可以近似地把這類數(shù)據(jù)作定量數(shù)據(jù)處理,但更一般的是將它當成定性數(shù)據(jù)來處理。

用定性數(shù)據(jù)來表示這類分級數(shù)字的方法如下:用一個向量來表示,它的每個分量分別對應(yīng)一個等級,某個分量取值0表示不屬于這個等級,取值1表示屬于這個等級,每個分量都是0或1。例如這天是小雨天氣就可以表示成(0,1,0,0)。今后將會經(jīng)常用到這種表示定性數(shù)據(jù)的定性化方法。第6頁,課件共61頁,創(chuàng)作于2023年2月例:總體(性別,籍貫(云、貴、川))樣本(n=3)第7頁,課件共61頁,創(chuàng)作于2023年2月

定量數(shù)據(jù)也可以表示為定性數(shù)據(jù),只要將它可能取值的結(jié)果分成n個等級,然后用上述增加變量維數(shù)的辦法即可化為0、1型數(shù)據(jù)。第8頁,課件共61頁,創(chuàng)作于2023年2月三、多元隨機變量的概念

一個多元總體可以看成一個多元變量,稱為多元隨機變量或稱為隨機向量。這個多元變量在每個樣本單元上取一個向量值。在不同樣本單元上取不同向量值.

隨機向量的每一個分量,都是一個一元隨機變量。隨機向量是描述多元變量隨機現(xiàn)象的基本工具。為此,我們需要討論隨機向量的分布函數(shù)及密度函數(shù),一階二階矩的情況。第9頁,課件共61頁,創(chuàng)作于2023年2月

總之,如果考查一個p元總體,就是考查這個總體中每個對象的p個屬性或者說考查一個p元隨機變量(p維隨機向量)。為此,需要從總體中隨機地抽取n個對象(樣本單元)進行觀測,得到p×n個觀測數(shù)據(jù)。多元統(tǒng)計分析的主要任務(wù)是

1.分析各觀測數(shù)據(jù)之間的關(guān)系,

2.推斷總體的某些性質(zhì)。第10頁,課件共61頁,創(chuàng)作于2023年2月四、隨機向量的分布函數(shù)及密度

設(shè),,…,為p個隨機變量,由它們組成的向量稱做一個p維隨機向量。這種隨機向量在林業(yè)生產(chǎn)和科研中隨處可見,如表示一株樹木的高,表示其胸徑,表示其材積,則就是一個隨機向量。第11頁,課件共61頁,創(chuàng)作于2023年2月

描述隨機變量最基本的工具是分布函數(shù),類似地描述隨機向量的最基本的工具也是分布函數(shù)?,F(xiàn)在給出隨機向量的分布函數(shù)的定義:設(shè)是一個隨機向量,它的(多元)分布函數(shù)是:對任何上式也可以寫成向量函數(shù)的形式:第12頁,課件共61頁,創(chuàng)作于2023年2月由定義容易驗證,多元分布函數(shù)具有性質(zhì):

(1)是每個變量的單調(diào)非降右連續(xù)函數(shù);(2)

(3)(4)例2.1若隨機向量(

)的分布函數(shù)為容易驗證,F(xiàn)(x,y)滿足上面的四個性質(zhì)。

第13頁,課件共61頁,創(chuàng)作于2023年2月若某個隨機向量的取值為有限個或可列個向量(p維歐氏空間的點)則稱為離散型的,下面是一個重要的離散型分布。若隨機向量

滿足下列條件:

(ⅰ),且;(ⅱ)若m1,m2,…,mn,為任意非負整數(shù),且滿足

m1+m2+…+mn=N,則有則稱隨機向量服從多項分布記作

x~P(N;p1,…,pn-1)。第14頁,課件共61頁,創(chuàng)作于2023年2月例:某遙感照片上,有林地占50%,水域占20%,巖裸地占30%,現(xiàn)從該照片中任意抽取100個象元,分別表示其中有林地,水域,巖裸地的象元數(shù),則:

多項分布是二項分布的直接推廣,當p=2時,就是二項分布。

第15頁,課件共61頁,創(chuàng)作于2023年2月設(shè)若存在一個非負的函數(shù)

使得

對于一切成立,則稱

(或

)有分布密度函數(shù),并稱為連續(xù)型隨機變量。一個p元變量的函數(shù)能作為中某個隨機向量的分布密度,就有性質(zhì):

(?。?,(ⅱ)

第16頁,課件共61頁,創(chuàng)作于2023年2月若為的連續(xù)點,則式中為對應(yīng)的分布函數(shù)。例2.2若隨機向量有密度函數(shù)0<x1<1,0<x2<2,0<x3<容易驗證它符合分布密度函數(shù)的兩條性質(zhì)。最重要的連續(xù)型多元分布——多元正態(tài)分布將在下章詳細討論。

第17頁,課件共61頁,創(chuàng)作于2023年2月

同樣,p元分布密度函數(shù)也可寫成向量函數(shù)的形式式中第18頁,課件共61頁,創(chuàng)作于2023年2月

五、總體平均向量(數(shù)學(xué)期望)

p元隨機變量的數(shù)學(xué)期望,即此總體的平均向量,定義為其中為的第α分量的數(shù)學(xué)期望,或第19頁,課件共61頁,創(chuàng)作于2023年2月六、總體協(xié)方差矩陣

作為一元總體方差的推廣,稱下述p×p矩陣為p維總體的協(xié)方差矩陣:

其中對角線元素為的第α分量的方差非對角線元素為的第α第β分量的協(xié)方差:第20頁,課件共61頁,創(chuàng)作于2023年2月在多元統(tǒng)計分析中,經(jīng)常要對隨機向量進行線性變換。

所謂線性變換就是用一個新的隨機向量代替原向量,使的每一個分量均為的各分量的線性組合。用矩陣形式可將線性變換寫成:七、平均向量與協(xié)方差矩陣的性質(zhì)

其中A一般是一個q×p矩陣,是q維隨機向量,矩陣A叫做線性變換矩陣。

第21頁,課件共61頁,創(chuàng)作于2023年2月

對于線性變換,平均向量與方差有下述性質(zhì):(?。?/p>

(ⅱ)(ⅲ)特別,當A為1×p的矩陣,即行向量時,有

第22頁,課件共61頁,創(chuàng)作于2023年2月

八、兩個隨機向量的協(xié)方差矩陣若是p維隨機向量是q維隨機向量,稱p×q矩陣為和的協(xié)方差矩陣,其中為與的協(xié)方差,即兩個隨機向量的協(xié)方差矩陣一般不是對稱的第23頁,課件共61頁,創(chuàng)作于2023年2月注意,若令p+q維向量

,則

對于線性變換,協(xié)方差公式為特別第24頁,課件共61頁,創(chuàng)作于2023年2月§1.2多元樣本一、概述

一般,我們總是無法得到多元總體的各項數(shù)字特征,而只能從我們所測定的樣本出發(fā)確定其數(shù)字特征的估計值。

假定在p元總體中抽取了n個樣本單元組成樣本進行觀測,得到多(p)元樣本數(shù)據(jù)

第25頁,課件共61頁,創(chuàng)作于2023年2月

顯然p元總體的每一個分量是一個一元總體,這個一元總體在所抽取的n個樣本單元上的取值,就是矩陣X中的α行。也就是說多元樣本數(shù)據(jù)中的每一行是一個一元總體的一個樣本,因此可以定義相應(yīng)的數(shù)字特征。例如樣本平均數(shù),樣本標準差,樣本協(xié)方差,樣本相關(guān)系數(shù)等。作為一元樣本統(tǒng)計量的直接推廣,可以定義多元樣本的統(tǒng)計量(向量或矩陣)。對于每一個定義,采用二種符號寫出來:一般記號和矩陣記號,以便對照。

第26頁,課件共61頁,創(chuàng)作于2023年2月二、樣本平均值(向量)

其中n為樣本單元數(shù),樣本平均值就是各變量樣本平均數(shù)組成的向量。

n個樣本單元是p維空間中的n個點,樣本平均值(作為一個點)就是n個(樣本)點的重心。第27頁,課件共61頁,創(chuàng)作于2023年2月例:總體(身高,體重,成績)樣本(n=4)則樣本平均值為:第28頁,課件共61頁,創(chuàng)作于2023年2月

為了方便,經(jīng)常將每個原始數(shù)據(jù)減去該變量樣本平均數(shù)后,用所得數(shù)據(jù)作為研究的出發(fā)點,新的數(shù)據(jù)(矩陣)叫做中心化數(shù)據(jù)(矩陣)。例如我們用表示中心化數(shù)據(jù)矩陣,則:

三、中心化數(shù)據(jù)

如果用表示元素全為1的列向量,即,那么中心化數(shù)據(jù)與原始數(shù)據(jù)之間的關(guān)系可以寫成:第29頁,課件共61頁,創(chuàng)作于2023年2月例:樣本(n=4)樣本平均值為:中心化為第30頁,課件共61頁,創(chuàng)作于2023年2月四、標準化數(shù)據(jù)

由于原始數(shù)據(jù)矩陣中各行數(shù)字的單位不同,往往給數(shù)據(jù)分析造成一定困難,因此有時先將原始數(shù)據(jù)標準化,形成標準化數(shù)據(jù)。標準化數(shù)據(jù),是將中心化數(shù)據(jù)矩陣中的各個數(shù)據(jù)除以該行的樣本標準差得到的數(shù)據(jù),即指下述矩陣中的數(shù)據(jù):

第31頁,課件共61頁,創(chuàng)作于2023年2月其中,是原始數(shù)據(jù)矩陣中第α行的標準差。標準化數(shù)據(jù)矩陣可以用矩陣乘法由中心化數(shù)據(jù)矩陣算出來。即

以后,在不會經(jīng)起混亂的情況下,原始數(shù)據(jù)矩陣、中心化數(shù)據(jù)矩陣或標準化數(shù)據(jù)矩陣,均可用X表示之。最后指出一個事實:中心化及標準化數(shù)據(jù)矩陣各行數(shù)字之和都是0。第32頁,課件共61頁,創(chuàng)作于2023年2月例:樣本(n=4)樣本平均值為:中心化為標準化樣本各變量標準差為:第33頁,課件共61頁,創(chuàng)作于2023年2月五、離差(平方乘積和)矩陣Q和樣本協(xié)方差矩陣S

離差(平方乘積和)矩陣

其中易見Q是對稱矩陣,并且是非負定矩陣。第34頁,課件共61頁,創(chuàng)作于2023年2月例:樣本(n=4)樣本平均值為:中心化為離差平方和矩陣第35頁,課件共61頁,創(chuàng)作于2023年2月樣本協(xié)方差矩陣

樣本協(xié)方差矩陣是一元統(tǒng)計學(xué)中方差的直接推廣。其中非對角線元素就是第α號變量和第β號變量的樣本協(xié)方差,對角線元素sαα就是第α號變量的樣本方差。顯然,S也是非負定矩陣。第36頁,課件共61頁,創(chuàng)作于2023年2月例:樣本(n=4)離差平方和矩陣協(xié)方差陣第37頁,課件共61頁,創(chuàng)作于2023年2月六、樣本相關(guān)矩陣

其中矩陣中非對角元素是第α號變量與第β號變量的相關(guān)系數(shù),對角線元素=1

R也是對稱非負定陣,因為

第38頁,課件共61頁,創(chuàng)作于2023年2月七、二個樣本的協(xié)方差矩陣

有時我們確定了二個樣本的數(shù)據(jù),每個樣本都有n個單元,則稱

為二個樣本的協(xié)方差矩陣。其中為和的樣本協(xié)方差,即

第39頁,課件共61頁,創(chuàng)作于2023年2月

樣本協(xié)主差矩陣可以用矩陣相乘公式表示為

注意,二個樣本的協(xié)方差矩陣一般不是對稱的,即,并且當時,容易看出:第40頁,課件共61頁,創(chuàng)作于2023年2月八、平均值和協(xié)方差矩陣的數(shù)學(xué)期望

在一元統(tǒng)計學(xué)中,已經(jīng)證明過樣本平均數(shù)是總體平均數(shù)的無偏估計;是的無偏估計,將此結(jié)果用于多元總體得到:若分別為二個總體,則第41頁,課件共61頁,創(chuàng)作于2023年2月§1.3距離一、概述

在一個p元總體中觀測了n個樣本單元,得到原始數(shù)據(jù)(或已中心化后的數(shù)據(jù),或已標準化后的數(shù)據(jù)),如何判斷二個樣本單元之間有多元的差異,進而判斷二個樣本之間有多大的差異。例如,在育種學(xué)中選擇親本時,希望在一定程度內(nèi)使父本或母本之間有較大的差異。因此需要有一個數(shù)值中衡量這個差異。類似的問題在各專業(yè)中都可以舉出很多,根據(jù)這種實際要求,在數(shù)學(xué)中抽象出一個概念叫做“距離”,用于描述樣本之間的差異程度。第42頁,課件共61頁,創(chuàng)作于2023年2月二、距離的定義

根據(jù)上述直觀的想法來分析距離應(yīng)該滿足如下一些要求:首先任何二個樣本單元和之間的距離,應(yīng)該是與相同時,也就是二樣本單元之間無差異該距離才會為0,最后和之間的距離應(yīng)等于和之間的距離。用數(shù)學(xué)語言可這樣進行表達:

第43頁,課件共61頁,創(chuàng)作于2023年2月

定義如果第i號樣本和第j號樣本的函數(shù)滿足:(?。┊斍覂H當時,;(ⅱ)對一切,;(ⅲ)。就稱dij是一種廣義距離。顯然,滿足上面三個條件的函數(shù)有多種。因此可以定義多種廣義距離,以適應(yīng)不同的需要。在數(shù)學(xué)中往往還再加上一條要求,即(ⅳ)dij≤dik+dkj這是幾何學(xué)中三角不等式的推廣。滿足上面四個條件的函數(shù)也有多種,下面列舉一列常用距離的例子供參考。第44頁,課件共61頁,創(chuàng)作于2023年2月三、常用的幾種統(tǒng)計距離(?。W氏(Euchiled)距離就是幾何數(shù)學(xué)中歐幾里德空間中二點之間的距離。由歐氏空間的直觀性,容易看出它滿足上述距離的四個條件。此外,歐氏距離還具有我們所熟悉的下述一些性質(zhì):①平移不變性。用原始數(shù)據(jù)或中心化數(shù)據(jù)算出的樣本點之間的距離相同.第45頁,課件共61頁,創(chuàng)作于2023年2月

②對正交變換U的不變性。這條性質(zhì)是說對原空間中的任何兩點和,通過正交變換U變?yōu)?則

因為正交變換也可以看成將空間的坐標軸進行一個旋轉(zhuǎn)。因此,正交變換不會改變二點間的距離。第46頁,課件共61頁,創(chuàng)作于2023年2月(ⅱ)馬氏(Mahalanobis)距離

歐氏距離雖然很有用,很也有明顯的缺點。例如,當改變測量單位時,算出的距離數(shù)值就不相同。再則它將樣本的不同屬性(即各變量)之間的差別等同看待,有時不能滿足實際要求,因為事物個體間不同屬性的差異對于區(qū)別個體有著不同的重要性。

若X是原始數(shù)據(jù),S是其協(xié)方差矩陣,

稱為馬氏距離第47頁,課件共61頁,創(chuàng)作于2023年2月

注意,馬氏距離以及以下各種距離,均不是歐氏空間中二點之間的距離,但也可以直觀地想象為用經(jīng)過某種比例變換后算出的數(shù)字,當做二點間的距離。在統(tǒng)計學(xué)中,馬氏距離具有很多優(yōu)良的性質(zhì),這些性質(zhì)可用數(shù)學(xué)語言敘述如下:①平移不變性。②對任意可逆線性變換的不變性。所謂可逆線性變換是指用一個可逆矩陣T,對任何一個點x進行變換Tx=y(tǒng),而得到一個新點y間的距離不變。第48頁,課件共61頁,創(chuàng)作于2023年2月

若X是中心化數(shù)據(jù)矩陣,對每個點都進行了變換,那么變換以后的數(shù)據(jù)矩陣為:變換后的協(xié)方差矩陣為:變換后的二點之間的距離為:

第49頁,課件共61頁,創(chuàng)作于2023年2月中心化不改變馬氏距離

用原始數(shù)據(jù)或中心化數(shù)據(jù)算出的樣本點之間的馬氏距離相同.第50頁,課件共61頁,創(chuàng)作于2023年2月例如,標準化數(shù)據(jù)是經(jīng)可逆線性變換由中心化數(shù)據(jù)得到的。所以,由標準化數(shù)據(jù)和中心化數(shù)據(jù)算出的二點之間的馬氏距離相同;二點之間馬氏距離與原始數(shù)據(jù)的測量單位無關(guān),因為測量單位的變換也是一種可逆線性變換。不僅如此,如果我們設(shè)計了p個新變量y1,,y2,…,yp代替原觀測變量,只要新舊變量之間具有線性關(guān)系,則也不會改變二點之間的馬氏距離。馬氏距離雖然與測量單位無關(guān),但它又會夸大縮小變量的作用,這是馬氏距離在實用中的不足。第51頁,課件共61頁,創(chuàng)作于2023年2月(ⅲ)B模距離

任意取一個正定矩陣B,由

所算出的距離叫做B模距離。當B為單位矩陣I時,它就成為歐氏距離。當時,它又成為馬氏距離。也可以取B為其他p×p的正定矩陣,以適應(yīng)不同的要求。

第52頁,課件共61頁,創(chuàng)作于2023年2月例如,當各變量對區(qū)分樣本有不同的作用時,可以給各變量以不同的權(quán)重。如果給第α變量賦于權(quán)重,這時就可采用B模距離,令:簡言之,矩陣B的主對角線元素表示第α分量在區(qū)分樣本時所占權(quán)重,非對角線元素則表示第α變量與第β變量的交互作用,在區(qū)分變量時只占權(quán)重的一半。第53頁,課件共61頁,創(chuàng)作于2023年2月(ⅳ)絕對距離

(ⅴ)切比雪夫(гебышев)距離

四、注釋以上幾種是比較常用的距離。它們主要用于定量數(shù)據(jù)的情況,有些也可用于定性數(shù)據(jù)的情況。以后還會出現(xiàn)一些特殊距離。我們還可以根據(jù)實際課題的要求,自己設(shè)計出具有不同性質(zhì)的距離,以滿足實際工作的要求。第54頁,課件共61頁,創(chuàng)作于2023年2月§1.4相似系數(shù)

也可以從另一個角度來描述樣本間的差異,對第i號和第j號樣本之間定義一個數(shù)字,使得當二樣本之間差異越大時,越小,反之,二樣本越相似,就越大。這樣一個兩點之間的函數(shù)稱為樣本和之間的相似系數(shù),記為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論