多元統(tǒng)計分析方法_第1頁
多元統(tǒng)計分析方法_第2頁
多元統(tǒng)計分析方法_第3頁
多元統(tǒng)計分析方法_第4頁
多元統(tǒng)計分析方法_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上多元統(tǒng)計分析概述目 錄一、引言 3二、多元統(tǒng)計分析方法的研究對象和主要內(nèi)容31.多元統(tǒng)計分析方法的研究對象 32.多元統(tǒng)計分析方法的主要內(nèi)容 3三、各種多元統(tǒng)計分析方法 31.回歸分析 32.判別分析 6 3.聚類分析 84.主成分分析 105.因子分析 106. 對應分析方法 117. 典型相關分析 11四、多元統(tǒng)計分析方法的一般步驟 12 五、多元統(tǒng)計分析方法在各個自然領域中的應用 12六、總結(jié) 13參考文獻 14謝辭 15一、引言統(tǒng)計分布是用來刻畫隨機變量特征及規(guī)律的重要手段,是進行統(tǒng)計分布的基礎和提高。多元統(tǒng)計分析方法則是建立在多元統(tǒng)計分布基礎上的一類處理多元

2、統(tǒng)計數(shù)據(jù)方法的總稱,是統(tǒng)計學中的具有豐富理論成果和眾多應用方法的重要分支。在本文中,我們將對多元統(tǒng)計分析方法做一個大體的描述,并通過一部分實例來進一步了解多元統(tǒng)計分析方法的具體實現(xiàn)過程。二、 多元統(tǒng)計分析方法的研究對象和主要內(nèi)容(一)多元統(tǒng)計分析方法的研究對象由于大量實際問題都涉及到多個變量,這些變量又是隨機變量,所以要討論多個隨機變量的統(tǒng)計規(guī)律性。多元統(tǒng)計分析就是討論多個隨機變量理論和統(tǒng)計方法的總稱。其內(nèi)容包括一元統(tǒng)計學中某些方法的直接推廣,也包括多個隨即便量特有的一些問題,多元統(tǒng)計分析是一類范圍很廣的理論和方法。現(xiàn)實生活中,受多個隨機變量共同作用和影響的現(xiàn)象大量存在。統(tǒng)計分析中,有兩種方法

3、可同時對多個隨機變量的觀測數(shù)據(jù)進行有效的分析和研究。一種方法是把多個隨機變量分開分析,一次處理一個隨機變量,分別進行研究。 但是,這樣處理忽略了變量之間可能存在的相關性,因此,一般丟失的信息太多,分析的結(jié)果不能客觀全面的反映整個問題,而且往往也不容易取得好的研究結(jié)論。另一種方法是同時對多個隨機變量進行研究分析,此即多元統(tǒng)計方法。通過對多個隨即便量觀測數(shù)據(jù)的分析,來研究隨機變量總的特征、規(guī)律以及隨機變量之間的相互關系。所以,多元統(tǒng)計分析是研究多個隨機變量之間相互依賴關系及內(nèi)在統(tǒng)計規(guī)律的一門統(tǒng)計學科。(二)多元統(tǒng)計分析方法的主要內(nèi)容 近年來,隨著統(tǒng)計理論研究的不斷深入,多元統(tǒng)計分析方法的內(nèi)容一直在

4、豐富。其中,主要內(nèi)容包括多元正態(tài)總體參數(shù)估計、假設檢驗和常用的多元統(tǒng)計方法。多元正態(tài)總體參數(shù)估計、假設檢驗是多元統(tǒng)計推斷的核心和基礎,而常用的多元統(tǒng)計分析方法則是具體應用。從形式上,常用多元統(tǒng)計分析方法可劃分為兩類: 一類屬于單變量常用的統(tǒng)計方法在多元隨機變量情況下的推廣和應用,如多元回歸分析,典型相關分析等; 另一類是對多元變量本身進行研究所形成的一些特殊方法。如主成分分析,因子分析,聚類分析,判別分析,對應分析等。三、各種多元統(tǒng)計分析方法 具體來說,常用的多元統(tǒng)計分析方法主要包括:多元回歸分析、聚類分析、判別分析、主成分分析、因子分析、對應分析、典型相關分析等。下面我們對各種多元統(tǒng)計分析方

5、法就行分別描述,(一) 回歸分析回歸分析是最靈活最常用的統(tǒng)計分析方法之一,它用于分析一個因變量與一個或多個自變量之間的關系。特別是用于:(1)定量的描述和解釋相互關系;(2)估測或預測因變量的值。 回歸分析方法是在眾多的相關變量中,根據(jù)實際問題考察其中一個或多個變量與其余變量的依賴關系。如果只要考察一個變量與其余多個變量之間的相互依賴關系,我們稱為多元回歸問題。若要同時考察多個因變量與多個自變量之間的相互依賴關系,我們稱為多因變量的多元回歸問題。多元回歸分析是研究因變量Y與m個自變量的相關關系 ,而且總是假設因變量Y為隨機變量,而為一般變量。下面我們來看一下多元線性回歸模型的建立。 假定因變量

6、Y與線性相關。收集到的n組數(shù)據(jù)()(t=1,2,···n)滿足以下回歸模型: 記C=,則所建回歸模型的矩陣形式為或并稱它們?yōu)榻?jīng)典多元回歸模型,其中Y是可觀測的隨機向量,是不可觀測的隨機向量,C是已知矩陣,是未知參數(shù),并設n>m,且rank(C)=m+1。 在經(jīng)典回歸分析中,我們討論模型中參數(shù)和的估計和檢驗問題。近代回歸分析中討論變量篩選、估計的改進,以及對模型中的一些假設進行診斷等問題。 我國國內(nèi)生產(chǎn)總值與基本建設投資額的大小有密切關系,研究發(fā)現(xiàn)兩變量之間存在線性關系。根據(jù)甘肅省1990-2003年的國內(nèi)生產(chǎn)總值與基本建設投資額數(shù)據(jù),研究它們的數(shù)量規(guī)律性,探

7、討甘肅省基本建設投資額與國內(nèi)生產(chǎn)總值的數(shù)量關系,原始數(shù)據(jù)見下表。年份GDP(億元)基本建設投資(億元)1990242.829.041991271.3933.961992317.7939.221993372.2442.891994451.6658.191995553.3562.621996714.18101.421997781.34121.741998869.75157.141999931.98187.492000983.36208.2820011072.51228.6320021161.43263.0620031304.6307.3 利用excel進行分析,具體輸出以下數(shù)據(jù),平方和自由度方 差

8、F 檢驗值回歸.71.7殘差59475.667124956.3056313.離差.413 復 相 關 系 數(shù) R =.5333 剩 余 標 準 差 SY =70.48回歸方差與剩余方差之比 F =313.3各個自變量的 t 檢驗值17.t 檢驗的自由度 N-P-1 =12F 檢驗的自由度 第一自由度=1,第二自由度=12各個自變量的偏回歸平方和.7各個自變量的偏相關系數(shù) 0.由輸出結(jié)果,得以下結(jié)論:回歸方程為 y=232.70+3.68其中,負相關系數(shù)為0.9814,說明回歸方程擬合優(yōu)度較高。而回歸系數(shù)的t=17.7024,查t分布表,小于t值,因此回歸系數(shù)顯著。查F分布表,4.75,由下表知

9、,F(xiàn)=313.3765>4.75,因此回歸方程也顯著。平方和自由度方 差F 檢驗值回歸.71.7313.殘差59475.667124956.3056離差.413(二)判別分析判別分析是多元統(tǒng)計分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法已經(jīng)分成與若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。判別方法處理問題時,通常通常要給出用來衡量新樣品與各已知組別的接近程度的指數(shù),即判別函數(shù),同時也指定一種判別準則,借以判別新樣品的歸屬。所謂判別準則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準則。常用的有,距離準則、Fisher準則、貝葉斯準則等。

10、距離判別的基本思想是:樣品和那個總體距離最近,就判斷它屬于哪個總體。距離判別也稱直觀判別。已知有兩個類和,比如是設備A生產(chǎn)的產(chǎn)品,是設備B生產(chǎn)的同類產(chǎn)品。設備A的產(chǎn)品質(zhì)量高(如考察指標為耐磨度X),其平均耐磨度=80,反映設備精度的方差=0.25;設備B的產(chǎn)品質(zhì)量稍差,其平均耐磨度=75,反映設備精度的方差=4。今有一產(chǎn)品,測得耐磨度=78,試判斷該產(chǎn)品是哪一臺設備生產(chǎn)的?下面考慮一種相對于分散性的距離。記與或的相對平均距離為或,則有:=16,=2.25。因為=1.5<4=,按這種距離準則應判為設備B生產(chǎn)的。一般的,我們假設總體的分布為,總體的分布為,則利用相對距離的定義,可以找出分界點

11、和(不妨設<,<),令 ,和x=。此例中,=79,=81.6667。而按這種距離最近法則的判別法為:為了區(qū)分小麥品種的兩種不同的分蘗類型,用三個指標求其判別函數(shù)。經(jīng)驗樣品中,第一類取11(主莖型)個樣品,第二類(分蘗型)取12個樣品,數(shù)據(jù)如下表所示。第一類(主莖型) 判別歸類第二類(分蘗型) 判別歸類12345678910110.71 3.80 12.00 10.78 3.86 12.17 11.00 2.10 5.70 10.70 1.70 5.90 10.30 1.80 6.10 10.60 3.40 10.20 11.00 3.60 10.20 10.50 3.50 10.5

12、0 10.50 5.00 11.50 10.71 4.00 11.25 11.00 4.50 12.00 21234567891011121.00 4.25 15.16 21.00 3.43 16.25 21.00 3.70 11.40 21.00 3.80 12.40 21.00 4.00 13.60 21.00 4.00 12.80 21.00 4.20 13.40 21.00 4.30 14.00 21.00 5.70 15.80 21.00 4.70 20.40 21.00 4.60 14.00 21.00 4.56 14.60 20.7091 3.3873 9.7746 0.98 4

13、.27 14.4842 由表計算得 =(-0.2742,-0.882,-4.7096,= (0.8462,3.8287,12.1293)=+=, =用對經(jīng)驗樣本的23個樣品進行判別有如下結(jié)果:第一類的11個樣本中有10個判別為第一類,一個判別為第二類;第二類的12個樣品全部判別為第二類,符合率為22/23=96%。例如,第一類第一個樣品=,則=0.6819>0,則(第一類)。又如,第一類的第11個樣品=,=-0.3083<0,故(第二類)。 將投入使用,可判別小麥品種的分蘗類型,如測得某小麥品種,則由=-2.9128<0判別該品種為分蘗型。(三) 聚類分析聚類分析是將樣品或變

14、量按照它們在性質(zhì)上的親疏程度進行分類的多元統(tǒng)計分析方法。聚類分析時,用來描述樣品或變量的親疏程度通常有來兩個途徑,一是把每個樣品或變量看成是多維空間上的一個點,在多維坐標中,定一點與點,類和類之間的距離,用點與點間距離來描述樣品或變量之間的親疏程度:另一個是計算樣品或變量的相似系數(shù),用相似系數(shù)來描述樣品或變量之間的親屬程度。聚類分析是實用多元統(tǒng)計分析的一個新的分支,聚類分析的功能是建立一種分類方法,他將一批樣品或變量,按照它們在性質(zhì)上的親疏、相似程度進行分類。聚類分析的內(nèi)容十分豐富,按其聚類的方法可分為以下幾種:(1)系統(tǒng)聚類法:開始每個對象自成一類,然后每次將最相似的兩類合并,合并后重新計算

15、新類與其他類的距離或相近性測度。這一過程可用一張譜系聚類圖描述。(2)調(diào)優(yōu)法(動態(tài)聚類法):首先對n個對象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對其進行調(diào)整,直到分類合理為止。(3)最優(yōu)分割法(有序樣品聚類法):開始將所有樣品看做一類,然后根據(jù)某種最優(yōu)準則將它們分割為二類、三類,一直分割到所需的K類為止。這種方法適用于有序樣品的分類問題,也稱為有序樣品的聚類法。(4)模糊聚類法:利用模糊集理論來處理分類問題,它對經(jīng)濟領域中具有模糊特征兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。(5)圖論聚類法:利用圖論中最小支撐樹的理論來處理分類問題,創(chuàng)造了獨具風格的方法。(6)聚類預報法:利用聚類方法處理

16、預報問題,在多元統(tǒng)計分析中,可以用來做預報的方法很多,如回歸分析和判別分析。但對一些異常數(shù)據(jù),如氣象中的災害性天氣的預報,使用回歸分析或判別分析處理的效果都不好,而聚類預報彌補了這一不足,只是一個值得重視的方法。聚類分析根據(jù)對象的不同又分為R型和Q型兩大類,R型是對變量(指標)進行分類,Q型是對樣品進行分類。R型聚類分析的目的有以下幾方面:(1)可以了解變量間及變量組合間的親疏關系;(2)對變量進行分類;(3)根據(jù)分類結(jié)果及它們之間的關系,在每一類中選擇有代表性的變量作為重要變量,利用少數(shù)幾個重要變量進一步作分析計算,如進行回歸分析或Q型聚類分析等。Q型聚類分析的目的主要是對樣品進行分類。分類

17、的結(jié)果是直觀的,且比傳統(tǒng)的分類方法更細致、全面、合理。當然使用不同的分類方法通常有不同的分類結(jié)果。對任何觀測數(shù)據(jù)都沒有唯一“正確”的分類方法。實際應用中,常采用不同的分類方法,對數(shù)據(jù)進行分析計算,一邊對分類提供具體意見,并由實際工作者決定所需要的分類數(shù)及分類情況。下面是聚類分析的一個簡單例子。有五個樣品,每個只測量了一個指標,分別為1,2,6,8,11,我們用最短距離法將它們分類。(1)計算五個樣品兩兩間的距離,得初始類間的距離矩陣,0105407620109530 (2)由知類間最小距離為1,于是將和合并成,并計算和其他類之間的距離,的新的距離陣0406209530 (3)由知,類間最小距離

18、為2,合并和 為,計算與其他類間的距離得矩陣,040930(4)由知,類間的最小距離為3,將和合并為,得新的距離矩陣,040(5)最后將和合并為,這時五個樣品聚為一類。(四) 主成分分析主成分分析是采取一種數(shù)學降維的方法,找出幾個綜合變量來代替原來眾多的變量,是這些綜合變量盡可能的代表原來變量的信息,而且彼此之間互不相關。這種把多個變化量化為少數(shù)幾個互相無關的綜合變量的統(tǒng)計分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設法將原來眾多具有一定相關性的變量,重新組合為一組新的相互無關的綜合變量來代替原來變量。通常,數(shù)學上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但是這種

19、組合如果不加以限制,則可以有很多,應該如何選擇呢?如果將選取的第一個線性組合即第一個綜合變量記為,自然希望它盡可能多的反映原來變量信息,這里信息用方差來測量,即希望越大,表示包含信息越多。因此在所有線性組合中所選取的應該是方差最大的,故稱為第一主成分。如果第一主成分不足以代表原來p個變量的信息,再考慮選取即第二個線性組合,為了有效地反映原來信息,已有的信息就不需要再出現(xiàn)在中,用數(shù)學語言表達就是要求=0,稱為第二主成分,以此類推可以構造出第三、四第p個主成分。(五)因子分析因子分析是主成分分析的推廣和發(fā)展,它是由研究原始數(shù)據(jù)相關矩陣的內(nèi)部依賴關系出發(fā),把一些具有錯綜復雜關系多個變量(或樣品)綜合

20、為少數(shù)幾個因子,并給出原始變量與綜合因子之間相關關系的一種多元統(tǒng)計分析方法。它也屬于多元分析中數(shù)據(jù)降維的一種統(tǒng)計方法。因子分析是通過變量(或樣品)的相關系數(shù)矩陣內(nèi)部結(jié)構的研究,找出存在于所有變量(或樣品)中具有共性的因素,并綜合為少數(shù)幾個新變量,把原始變量表示成少數(shù)幾個綜合變量的線性組合,以再現(xiàn)原始變量與綜合變量之間的相關關系。其中,這里的少數(shù)幾個綜合變量一般是不可觀測指標,通常稱為公公因子。因子分析常用的兩種類型:一種是R型因子分析,即對變量進行因子分析:另一種叫做Q型因子分析,即對樣品進行的因子分析。(六)對應分析方法 對應分析又稱為相應分析,是一種目的在于揭示和樣品之間或者定性量資料中變

21、量與其類別之間的相互關系的多元統(tǒng)計分析方法。對應分析的關鍵是利用一種數(shù)據(jù)變換,使含有p個變量n個樣品的原始數(shù)據(jù)矩陣,變換成為一個過渡矩陣Z,并通過矩陣Z將R型因子分析和Q型因子分析有機的結(jié)合起來。具體地說,首先給出進行R型因子分析時變量點的協(xié)差陣A=和進行Q型因子分析時樣品點的協(xié)差陣B=,由于和有相同的非零特征根,記為 依據(jù)證明,如果A的特征根對應的特征向量為,則B的特征根對應的特征向量就是,根據(jù)這個結(jié)論就可以很方便的借助R型因子分析而得到Q型因子分析的結(jié)果。因為求出A的特征根和特征向量后很容易地寫出變量點協(xié)差陣對應的因子載荷矩陣,記為F。則F= 這樣,利用關系式也很容易地寫出樣品點協(xié)差陣B對

22、應的因子載荷陣,記為G。則G= 從結(jié)果的展示上,由于A和B具有相同的非零特征根,而這些特征根正是公共因子的方差,因此可以用相同的因子軸同時表示變量點和樣品點,即把變量點和樣品點同時反映在具有相同坐標軸的因子平面上,以便顯示出變量點和樣品點之間的相互關系,并且可以一并考慮進行分類分析。(七) 典型相關分析 在經(jīng)濟問題中,不僅經(jīng)常需要考察兩個變量之間的相關程度,而且還經(jīng)常需要考察多個變量與多個變量之間即兩組變量之間的相關系。典型相關分析就是研究兩組變量之間相關程度的一種多元統(tǒng)計分析方法。 典型相關分析是研究兩組變量之間相關關系的一種統(tǒng)計分析方法。為了研究兩組變量和之間的相關關系,采用類似于主成分分

23、析的方法,在兩組變量中,分別選取若干有代表性的變量組成有代表性的綜合指數(shù),通過研究這兩組變量之間的相關關系,來代替這兩組變量之間的相關關系,這些綜合指數(shù)稱為典型變量。此外,多元統(tǒng)計分析方法還有方差分析、偏最小二乘回歸分析、邏輯分析、聯(lián)合分析等,我們就不做一一介紹了。四、多元統(tǒng)計分析方法的一般步驟 與一般統(tǒng)計分析方法一樣,多元統(tǒng)計分析方法也要經(jīng)過建立模型、進行參數(shù)估計、假設檢驗以及預測控制等步驟。以經(jīng)濟統(tǒng)計為例,具體步驟是: 1、根據(jù)經(jīng)濟理論進行定性分析,設計理論模型; 2、對實際經(jīng)濟活動的現(xiàn)象抽取樣本,并取得樣本統(tǒng)計資料; 3、對描述樣本的指標利用多元統(tǒng)計分析方法進行統(tǒng)計分析,選擇最佳的統(tǒng)計指標; 4根據(jù)最佳指標的樣本數(shù)據(jù),估計參數(shù),建立數(shù)量模型模型;五、多元統(tǒng)計分析方法在各個自然領域中的應用 多元統(tǒng)計分析是解決實際問題的有效的數(shù)據(jù)處理方法,其應用范圍非常廣泛。多元統(tǒng)計分析方法可以應用于地質(zhì)科學、氣象科學、醫(yī)療衛(wèi)生、體育、語言學、考古學、教育學、心理學以及經(jīng)濟學、管理學等各個方面。下面我們以經(jīng)濟學和管理學為例,了解一下多元分析方法在其中的作用和應用的場合與領域: 1、簡化數(shù)據(jù)結(jié)構。對多個變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論