第二章_多元正態(tài)分布_第1頁
第二章_多元正態(tài)分布_第2頁
第二章_多元正態(tài)分布_第3頁
第二章_多元正態(tài)分布_第4頁
第二章_多元正態(tài)分布_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第2章 多元正態(tài)分布及其參數(shù)估計,本章內(nèi)容概述 本章是多元分析的理論基礎(chǔ)部分,是必不可少的內(nèi)容。 主要從復習一元的概率統(tǒng)計入手,進而介紹多元統(tǒng)計的基本概念,特別是以多元正態(tài)分布為重點,學習相關(guān)概念及其表示,然后是多元正態(tài)分布的參數(shù)估計。 最后介紹維希特(Wishart)分布,.,2,主要內(nèi)容包括:,2.1 一元(概率)分布簡要復習 2.2 多元(概率)分布基本概念 2.3 多元正態(tài)分布定義及其性質(zhì) 2.4 多元統(tǒng)計中的基本概念 2.5 多元正態(tài)分布的參數(shù)估計 2.6 維希特(Wishart)分布定義及性質(zhì),.,3,內(nèi)容概覽 1.一元隨機變量R.V.的概率分布 (1)隨機變量(R.V.)的定義、

2、類型 (2)隨機變量的概率分布(P.D.)定義、分類 (3)另一種描述概率分布的表達方式分布函數(shù)F(x) 2.一元隨機變量R.V.的數(shù)字特征期望與方差 3.期望與方差的性質(zhì) 4.一元中重要的常見分布 5.一元正態(tài)分布的定義,2.1 一元(概率)分布簡要復習,.,4,一元隨機變量的概率分布(簡稱一元分布),眾所周知,一元統(tǒng)計分析是多元統(tǒng)計分析的基礎(chǔ),尤其是一元正態(tài)分布自然是多元正態(tài)分布的基礎(chǔ),它在統(tǒng)計學的理論和實際應(yīng)用方面都有著重要的地位。 在一元統(tǒng)計分布中,經(jīng)常會用到隨機變量X的概念及其概率分布問題。,.,5,(1)隨機變量的定義:對于每一個隨機結(jié)果都對應(yīng)著某個變量的一個數(shù)值,這種對應(yīng)就是一個

3、函數(shù),用隨機變量來表示。 R.V.特點: a.取值的隨機性 ,即事先不能確定其取哪一個值; b.取值的統(tǒng)計規(guī)律性,即完全可以確定x 取某個值或在某個區(qū)間內(nèi)取值的概率。,.,6,(2)R.V.的分類:主要分為離散型和連續(xù)型下面介紹最重要的隨機變量概率分布的含義 (3)R.V.概率分布的定義:對于離散型隨機變量x,其概率分布有兩種表達形式:一種是用公式表示: 第二種是用表格的形式表示:,.,7,這兩種表達形式揭示出了離散性隨機變量概率分布的實質(zhì),即它們都表達出了兩層含義: 一是隨機變量的所有取值是哪些? 二是隨機變量取每一個值的概率有多大?,.,8,對于連續(xù)型型隨機變量x來說,其概率分布往往用所謂

4、的概率密度函數(shù)f(x)來描述,,.,9,為了統(tǒng)一研究這兩類,也可以用分布函數(shù)來描述隨機變量的概率分布,這一點將在后面的多元情形中看得更加清楚,也更加有必要用分布函數(shù)來刻畫概率分布。 (4)隨機變量X的概率分布函數(shù)(簡稱分布分布)定義為如下一個普通的函數(shù): 它全面地描述了隨機變量x的統(tǒng)計規(guī)律性。也就是說,用分布函數(shù)來研究兩類隨機變量更加方便,至少不用分開類型來分別說了,可以將二者統(tǒng)一用分布函數(shù)來研究,即只要知道了某個隨機變量的分布函數(shù)也就知道了其概率分布,還有表達簡潔的優(yōu)勢。正因為它有這樣的優(yōu)點,很多隨機問題都用分布函數(shù)來研究。,.,10,2 隨機變量的數(shù)字特征數(shù)學期望和方差,對于離散型隨機變量

5、x, 其數(shù)學期望(或稱為均值)和方差分別定義為 對于連續(xù)型隨機變量x,其期望和方差分別定義為,.,11,3 數(shù)學期望和方差的性質(zhì),(1)期望的性質(zhì): E(k)=k,即常數(shù)的期望等于其自身。 E(kX)=kE(X),即數(shù)乘的期望可以直接將該數(shù)提出來 E(X1+X2+Xn)=E(X1)+E(X2)+E(Xn) (2)方差的性質(zhì): V(k)=0,即常數(shù)的方差為0; V(kX)=k2V(X),即數(shù)乘的方差等于將常數(shù)平方后再乘以原來的X的方差。 設(shè)n個隨機變量相互獨立,則有 V(X1+ X2 + Xn)= V(X1)+V(X2)+V(Xn),.,12,4 一些重要和常見的一元分布,兩點分布 二項分布 泊

6、松分布 均勻分布 指數(shù)分布 正態(tài)分布(下面將復習一元正態(tài)分布),離散型,連續(xù)型,.,13,5.一元正態(tài)分布(Normal distribution)的定義,若某個隨機變量X 的密度函數(shù)是 則稱X服從一元正態(tài)分布,也稱X是一元正態(tài)隨機變量(其中有兩個參數(shù))。 記為 X 。 可以證明:其期望(也叫均值)正好是參數(shù),方差正好是 ,它是一非負數(shù) 。,.,14,有時候,僅僅用一個隨機變量來描述隨機現(xiàn)象就不夠了,需要用多個隨機變量來共同描述的隨機現(xiàn)象和問題,而且這些隨機變量間又有聯(lián)系,所以必須要將它們看做一個整體來研究(即不能一個一個地單獨研究多個一元隨機變量),這就出現(xiàn)了多元隨機向量的問題和概念 因而多

7、元隨機向量可看作是一元隨機變量的推廣 而一個隨機變量可看作是特殊的一元隨機向量,.,15,2.2 多元(概率)分布基本概念,1.二元隨機向量的例子,由于我們的研究對象涉及的是多個變量的總體,所以要用若干個隨機變量合在一起看作一個整體,共同用這個整體來描述隨機現(xiàn)象。 比如,要考察一射擊手向一平面靶子射擊的水平,那么,子彈在靶子上的著點位置是隨機的,這個平面上的隨機點需要用兩個隨機變量(即橫向的X與縱向的Y)共同來描述,于是(X,Y)就構(gòu)成了二元(維)的隨機向量。,.,16,射擊后的子彈著落點的位置是隨機的,這個點的位置要用兩個隨機變量X與Y共同描述才能確定,即用(X,Y)數(shù)組的取值來確定這個點的

8、位置。 這就是二元隨機向量。,.,17,將二元隨機向量(雖然有些教材上仍然采用二元隨機變量的叫法,但我認為,用“向量”二字更能體現(xiàn)出多元的特點)完全可以推廣到三元甚至更多,于是就產(chǎn)生了多元隨機向量問題 欣慰的是,同學們已經(jīng)學過二元隨機向量的相關(guān)知識,只要將維度擴展到更高元(或維度)就可以理解了,.,18,P元(維)隨機向量的定義,設(shè) 為p個隨機變量,將它們合在一起組成的一個整體的向量 稱作p元隨機向量。 注意:X是列向量,所以橫著寫時需要轉(zhuǎn)置一下。,.,19,2.聯(lián)合分布函數(shù)與密度函數(shù),與一元隨機變量一樣,也可將隨機向量分為離散性和連續(xù)型兩類,但是在表達其概率分布時,就非常不方便了(因為當它是

9、離散型時,需要用多維表格表示概率分布,但超過兩維時就不容易表示了),這時我們就必須借助于分布函數(shù)來刻畫它的概率分布。這就充分體現(xiàn)出分布函數(shù)在表達聯(lián)合概率分布時的優(yōu)勢。 對于多元的隨機向量,就對應(yīng)地需要用聯(lián)合分布函數(shù)來刻畫其概率分布。,.,20,復習:二元隨機向量的聯(lián)合分布函數(shù),.,21,X,Y,x,y,Xx,Yy, , y ,二元聯(lián)合分布函數(shù)的幾何意義演示圖:,(x,y),F(x,y)= P(Xx,Yy) ,,F(x,y)值為隨機點落入黃色矩形區(qū)域內(nèi)的概率,.,22,對于p元的隨機向量來說,就對應(yīng)地需要用聯(lián)合分布函數(shù)來刻畫其概率分布。,.,23,聯(lián)合分布函數(shù)的定義:,設(shè) 是一隨機向量,它的聯(lián)合

10、分布函數(shù)定義為 該定義與一元分布函數(shù)的定義是類似的,只是改變?yōu)槎嘣瘮?shù)而已,.,24,聯(lián)合密度函數(shù)的定義,對于多元連續(xù)型隨機向量來說,其概率分布也可以用密度函數(shù)來描述。 若存在一個非負的p元函數(shù)f(),滿足 對任意的 都成立,則稱p元函數(shù)f()為p元隨機向量的概率密度函數(shù),并稱隨機向量為連續(xù)型的。,.,25,聯(lián)合概率密度函數(shù)的基本性質(zhì),兩條性質(zhì)是:,.,26,隨機向量的數(shù)字特征主要有均值向量和協(xié)方差矩陣。 1.均值向量就是每一個分量的均值(或叫期望)所組成的常數(shù)向量。用數(shù)學符號表示如下: 設(shè)p元隨機向量為 ,且每個分量的期望 為 ,則將新向量: 定義為該隨機向量的期望,也叫均值向量 而一元隨機

11、變量的第一個數(shù)字特征名稱卻稱為均值或期望請注意一元與多元在對應(yīng)概念上的稱呼的區(qū)別,3.p元隨機向量的數(shù)字特征,.,27,P元隨機向量的協(xié)方差陣,注意:一元隨機變量與多元隨機向量在第二個數(shù)字特征方面的表示有很大不同,其原因是在多元情形中還要體現(xiàn)出分量之間的相關(guān)關(guān)系。 一元的稱為方差,而多元的改稱為協(xié)方差陣。詳見教材P13和指導書上的比較表. 以二元的為例,就會出現(xiàn)兩個分量之間的協(xié)方差的概念。,.,28,二元隨機向量協(xié)方差陣的定義,假設(shè)二元隨機向量為Z=(X,Y),定義其協(xié)差陣為22的一個方陣,其4個元素是兩兩分量之間的協(xié)方差數(shù),用符號表示,即 稱此2階矩陣為Z=(x,Y)協(xié)方差矩陣。其中對角線上

12、的兩個數(shù)就是分量各自的方差。 以此可以類推到P元隨機向量的協(xié)差陣的定義。,.,29,p元隨機向量協(xié)方差陣的定義,一個P元隨機向量 自己 的方差或協(xié)差陣的定義,可用D(X)或表示。 兩個p元隨機向量 與 的協(xié)差陣的定義。參見教材P13。,.,30,綜上,可以對一元與多元在概率分布、數(shù)字特征等方面進行簡單的對比學習,這樣容易清楚二者的區(qū)別與聯(lián)系。 請仔細閱讀指導書上的第一部分內(nèi)容中的兩張對比的比較表,.,31,一個簡單對比,.,32,多元正態(tài)分布在多元統(tǒng)計分析中的重要地位,就如同一元統(tǒng)計分析中一元正態(tài)分布所占重要地位一樣,多元統(tǒng)計分析中的許多重要理論和方法都是直接或間接建立在正態(tài)分布的基礎(chǔ)上。 原

13、因是: (1)許多實際問題研究中的隨機向量確實遵從正態(tài)分布,或者近似遵從正態(tài)分布; (2)對于多元正態(tài)分布,已經(jīng)有一套統(tǒng)計推斷方法,并且得到了許多完整的結(jié)果。 多元正態(tài)分布是最常用的一種多元概率分布,下一節(jié)就是多元正態(tài)分布的定義。,.,33,2.3 多元正態(tài)分布定義及基本性質(zhì),在多元分布中,最常見也是最重要的分布就是正 態(tài)分布。 定義:若 p 維隨機向量 的聯(lián)合概率密度為 其中,x和都是p維向量,是p階正定陣,則稱 隨機向量 服從p元正態(tài)分布, 或稱p維正態(tài)隨機向量,簡記為XN p(,),.,34,具體而言,其中的 的具體形式為 而符號 表示該隨機向量的協(xié)方差矩陣的行列式,它是個非負數(shù)值。由此

14、說明是非負定的。,.,35,多元正態(tài)分布的性質(zhì),顯然,當p=1時,就是一元正態(tài)分布的密度函數(shù);當p=2時,即為二元正態(tài)分布。 可以證明: (1)恰好是X的均值向量; (2)恰好是X的協(xié)方差矩陣。,.,36,P元正態(tài)分布的性質(zhì):,(1)若 N p(,) 則任一分量的邊沿(邊緣)分布也一定是正態(tài)分布。 并且,當協(xié)差陣是對角形矩陣時, 則分量 是相互獨立的。 (2)正態(tài)隨機向量的線性組合仍然服從正態(tài)分布(詳見教材P20).,.,37,在研究社會、經(jīng)濟現(xiàn)象和許多實際問題時,經(jīng)常遇到多指標的問題。 例如,評價學生在校表現(xiàn)時,要考察他的政治思想(德)、學習情況(智)、身體狀況(體)等各個方面的情況,僅學習

15、情況就又涉及他在各個年度的每門課程成績,這里面就有多項指標存在。,2.4多元統(tǒng)計中的基本概念,.,38,再例如,研究公司的經(jīng)營情況,就要考察資金周轉(zhuǎn)能力、償債能力、獲利能力、競爭力等多個指標。顯然不能將這些指標分割開來進行單獨研究,那樣就不能從整體上綜合把握事物的實質(zhì)。 一般地,假設(shè)我們研究的問題涉及p個指標,對n個個體進行觀察,就會得到np個數(shù)據(jù),我們的目的就是對觀測對象進行分組、分類、或分析考察這p個變量之間的相互關(guān)聯(lián)程度,或者找出內(nèi)在規(guī)律性等等。,.,39,1.多元樣本的概念及其表示法,我們要研究的對象是多個變量的總體,即研究總體的概率分布,特別是關(guān)注其數(shù)字特征是什么? 采用的研究方法是

16、統(tǒng)計推斷方法。 通過從總體中隨機抽取一個樣本的手段,然后對樣本的概率分布(即抽樣分布)進行研究,來推斷(inference)未知分布的總體的概率分布。,.,40,觀測數(shù)據(jù)的表示,因而所得到的數(shù)據(jù)是,同時對某n個個體觀測了p項指標(或變量)后得到的np個數(shù)據(jù)。我們將這p個指標共同表示為 常用向量 表示對同一個體觀測到的p個指標。,.,41,例如,要考察張三的學習情況,就需要觀測他的英語、高數(shù)、計算機、專業(yè)課成績等多個變量, 我們稱對每一個個體的p個變量的一次觀測為一個樣品(如張三同學是一個個體,也是一個樣品)。 我們表示第個樣品為,什么是樣品(case)?,.,42,樣品的本質(zhì),每個樣品 在理論

17、上看作是一個P維的隨機向量(在沒有觀測之前) 一旦經(jīng)過觀測之后就確定了一個常數(shù)向量。,.,43,什么是樣本(sample)?,我們稱對全部n個樣品組成的局部整體,叫做一個樣本。 例如,從全體工大學生這個總體中隨機抽取了200名學生,考察三門公共基礎(chǔ)課(數(shù)學、外語、計算機)的學習情況,那么這200名學生就組成了一個樣本, 在這里,p=3,n=200。,.,44,一個樣本的表示,一個樣本用符號表示為 或者,寫為,.,45,例如:考察四個學生三門基礎(chǔ)課學習情況,需要用二維表格表示,常稱為樣本資料陣:,.,46,一般地說,對于從研究總體中觀測到的n個樣品,且對每一個樣品觀測p個變量(指標)的一個樣本

18、來說, 注意:其中的每一個是列向量: 則這些樣本數(shù)據(jù)需要用二維表格的形式來表達,就構(gòu)成了樣本資料矩陣。,.,47,樣本資料陣表達為一個np的矩陣:,其中,橫向代表的是n個樣品,縱向代表的是p個變量(或指標)。 兩個方向共同描述了具有多個變量的多元樣本的抽樣數(shù)據(jù)。,.,48,對樣本資料矩陣X的說明,,由于每個樣品是隨機產(chǎn)生的,所以理論上該矩陣X是一個隨機矩陣,但是一旦觀測值確定之后就成為一個數(shù)據(jù)矩陣,它是我們分析數(shù)據(jù)的原始出發(fā)點,從中提取有用的信息。,.,49,簡單隨機樣本是常用的樣本(尤其是數(shù)學上的證明),但是,還有的樣本就不是隨機產(chǎn)生的(取決于抽樣方法)。 另外,還有一些觀測對象是全體個體,

19、不是樣本。 例如,考察全國人口情況的普查資料,如果要根據(jù)各省人口狀況的多項指標進行地區(qū)分類問題,這可以用后面的聚類分析。 可見P23,.,50,例如,隨機抽取的四個學生的學習成績的(多元)樣本資料矩陣為,表示抽取到了4個學生,每個學生考察3門課成績,.,51,與前面的隨機向量(在統(tǒng)計中,相當于總體的地位)的數(shù)字特征相對應(yīng),就有了樣本的均值向量與樣本的協(xié)方差陣這兩個最重要的數(shù)字特征。 樣本的均值向量: 它是p維(元)列向量。 樣本協(xié)方差陣: 它是p階方陣。,2 多元樣本的數(shù)字特征,.,52,計算一下例子中的樣本均值向量與樣本離差陣S分別是什么?,樣本資料陣為,.,53,以前面的學習成績?yōu)槔?,計?/p>

20、樣本均值向量,求出的平均成績向量,即樣本均值向量的計算方法為,.,54,2.樣本協(xié)方差矩陣的定義,樣本協(xié)方差陣定義為: 它是p階方陣。,.,55,對于前面列舉的學習的例子,計算其樣本協(xié)方差矩陣為,請你自己完成最后的計算!,.,56,2.5 多元正態(tài)分布的參數(shù)估計(均值向量和協(xié)方差陣的估計),首先應(yīng)明確,數(shù)理統(tǒng)計是本門課程的理論基礎(chǔ),其基本思想是:以樣本提供的信息為依據(jù),以統(tǒng)計量為工具,對總體分布中的未知參數(shù)或者未知分布進行推斷。 簡言之,一句話:“用樣本來推斷總體”。 正因為如此,數(shù)理統(tǒng)計也稱為“統(tǒng)計推斷”。,.,57,什么是統(tǒng)計推斷?,統(tǒng)計推斷是根據(jù)已經(jīng)收集到的樣本數(shù)據(jù)來推斷總體的分布或者總

21、體中的均值、方差等統(tǒng)計參數(shù)(它們往往是數(shù)字特征)。 之所以不直接從總體出發(fā),而根據(jù)樣本數(shù)據(jù)推斷總體的概率分布的原因是: 一是總體數(shù)據(jù)無法全部收集到;如檢驗電子器件的壽命,這類檢驗屬于破壞性檢驗,是不可行的。 二是因為既使總體數(shù)據(jù)能夠收集到,但需要耗費大量的人力、物力和財力。,.,58,因此大家應(yīng)牢固樹立一個觀念:統(tǒng)計推斷的結(jié)論是有誤差的,通常體現(xiàn)為在一定置信度下結(jié)論才成立。同時,有些問題的結(jié)論也沒有必要要求是100%的精確。 所以,統(tǒng)計推斷方法既能節(jié)省成本、又能滿足問題的需要,因而在實際中有著廣泛的應(yīng)用。,.,59,統(tǒng)計推斷內(nèi)容的兩大組成部分,一大部分內(nèi)容是“參數(shù)估計”。 另一大部分內(nèi)容是“假

22、設(shè)檢驗”。 這兩種思維方式有很大的差異,.,60,統(tǒng)計推斷之一:參數(shù)估計,參數(shù)估計的基本思想:直接利用樣本提供的信息對總體分布中的未知參數(shù)進行估計,這就叫做參數(shù)估計。 其思維方式是正向的、直接的、即直接地想方設(shè)法去尋找總體中的未知參數(shù)的估計值。,.,61,假設(shè)檢驗的基本思想:由于不知道總體的概率分布或者分布中的未知參數(shù)是什么,于是就首先提出一個類似于猜想的所謂的統(tǒng)計假設(shè),然后再利用樣本數(shù)據(jù)來檢驗這個假設(shè)是否可接受,或者利用樣本數(shù)據(jù)檢驗一下是否支持這個假設(shè)。 如果樣本數(shù)據(jù)不支持這個假設(shè)(即發(fā)生了意料之外的現(xiàn)象),則認為這個假設(shè)不可接受,否則,就認為沒有充分的理由拒絕原來的假設(shè)。 這就叫做假設(shè)檢驗。,統(tǒng)計推斷之二:假設(shè)檢驗,.,62,很明顯,,假設(shè)檢驗的思維方式是逆向的、間接的,即不是直接地想方設(shè)法去尋找總體中的未知參數(shù)的估計值,而是先猜測它是某個值,然后,再去檢驗這個猜測是否可接受。 在SPSS的參數(shù)檢驗中,最關(guān)鍵的要看伴隨(或相伴概率)概率與顯著性水平a進行比較,若概率Sig.a/2, 就接受原來的零假設(shè)。,.,63,下面首先學習的是“多元正態(tài)總體的參數(shù)估計”問題。 在給出多元正態(tài)分布定義和性質(zhì)的基礎(chǔ)上,在實際問題中,通??梢约俣ū谎芯繉ο笞駨亩嘣?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論