




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、v 多元統(tǒng)計分析是運用數(shù)理統(tǒng)計的方法來研究多變量(多指標)問題的理論和方法,是一元統(tǒng)計學的推廣。v 多元統(tǒng)計分析是研究多個隨機變量之間相互依賴關系以及內在統(tǒng)計規(guī)律的一門統(tǒng)計學科。二、多元統(tǒng)計分析的內容和方法v 1、簡化數(shù)據(jù)結構(降維問題)將具有錯綜復雜關系的多個變量綜合成數(shù)量較少且互不相關的變量,使研究問題得到簡化但損失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)對應分析等v 2、分類與判別(歸類問題)對所考察的變量按相似程度進行分類。 (1)聚類分析:根據(jù)分析樣本的各研究變量,將性質相似的樣本歸為一類的方法。 (2)判別分析:判別樣本應屬何種類型的統(tǒng)計方法。例5:根據(jù)信息基礎設
2、施的發(fā)展狀況,對世界20個國家和地區(qū)進行分類。 考察指標有6個: 1、X1:每千居民擁有固定電話數(shù)目 2、X2:每千人擁有移動電話數(shù)目 3、X3:高峰時期每三分鐘國際電話的成本 4、X4:每千人擁有電腦的數(shù)目 5、X5:每千人中電腦使用率 6、X6:每千人中開通互聯(lián)網(wǎng)的人數(shù)v 3、變量間的相互聯(lián)系一是:分析一個或幾個變量的變化是否依賴另一些變量的變化。(回歸分析) 二是:兩組變量間的相互關系(典型相關分析)v 4、多元數(shù)據(jù)的統(tǒng)計推斷 點估計 參數(shù)估計 區(qū)間估計 統(tǒng) u檢驗 計 參數(shù) t檢驗 推 F檢驗 斷 假設 相關與回歸 檢驗 卡方檢驗 非參 秩和檢驗 秩相關檢驗v 1、假設檢驗的基本原理
3、小概率事件原理v 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次試驗中基本上不會發(fā)生。反證法思想是先提出假設(檢驗假設H0),再用適當?shù)慕y(tǒng)計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立;反之,則認為假設成立。 v 2、假設檢驗的步驟 (1)提出一個原假設和備擇假設 v 例如:要對婦女的平均身高進行檢驗,可以先假設婦女身高的均值等于 160 cm(u=160cm )。這種原假設也稱為零假設( null hypothesis ),記為 H 0 。 2.1 均值向量的檢驗v 1、正態(tài)總體均值檢驗的類型 v 根據(jù)樣本對其總體均值大小進行檢驗( One-Samp
4、le T Test )如婦女身高的檢驗。v 根據(jù)來自兩個總體的獨立樣本對其總體均值的檢驗( Indepent Two-Sample T Test ) 如兩個班平均成績的檢驗。 v 配對樣本的檢驗( Pair-Sample T Test ) 如減肥效果的檢驗。 v 多個總體均值的檢驗v A、總體方差已知用u檢驗,檢驗的拒絕域為 即 v B、總體方差未知 用樣本方差 代替總體方差 ,這種檢驗叫t檢驗.首先,可以畫出這些重量的直方圖(下圖)v 判斷樣本是否服從正態(tài)分布(2)根據(jù)來自兩個總體的獨立樣本對其總體均值的檢驗 v 目的是推斷兩個樣本分別代表的總體均數(shù)是否相等。其檢驗過程與上述兩種t檢驗也沒有
5、大的差別,只是假設的表達和t值的計算公式不同。 v 兩樣本均數(shù)比較的t檢驗,其假設一般為: H0:µ1=µ2,即兩樣本來自的總體均數(shù)相等. H1:µ1>µ2或µ1<µ2,即兩樣本來自的總體均數(shù)不相等,檢驗水準為0.05。v 計算t統(tǒng)計量時是用兩樣本均數(shù)差值的絕對值除以兩樣本均數(shù)差值的標準誤。v 相應的假設檢驗問題為:H0:1=2 H1: 1大于2 v 1 為第一組的總體均值,而2 為第二組的總體均值。 v 用 SPSS 處理數(shù)據(jù): Spss 選項:AnalyzeCompare Means Independent-Sampl
6、es T Testv 3、配對樣本的檢驗( paired samples ) (針對同樣的樣本)考察實驗前后樣本均值有無差異。能夠很好地控制非實驗因素對結果的影響注意:實驗前后兩個樣本兩個樣本并不獨立v 注意:同一樣本實驗前后并不獨立,但不同樣本之間卻相互獨立。v 配對樣本的檢驗實際上是用配對差值與總體均數(shù)“0”進行比較,即推斷差數(shù)的總體均數(shù)是否為“0”。故其檢驗過程與依據(jù)樣本均數(shù)推斷總體均數(shù)大小的t檢驗類似,即: v A、建立假設H0:µd=0,即差值的總體均數(shù)為“0”,H1:µd>0或µd<0,即差值的總體均數(shù)不為“0”,檢驗水平為 。v B. 計
7、算統(tǒng)計量進行配對設計t檢驗時 t值為差值均數(shù)與0之差的絕對值除以差值標準誤的商,其中差值標準誤為差值標準差除以樣本含量算術平方根的商。v C. 確定概率,作出判斷以自由度v(對子數(shù)減1)查t界值表,若P<,則拒絕H0,接受H1,若P>=,則還不能拒絕H0。v 例4:要比較50個人在減肥前和減肥后的重量。這樣就有了兩個樣本,每個都有50個數(shù)目。v 這里不能用前面的獨立樣本均值差的檢驗;這是因為兩個樣本并不獨立。v 每一個人減肥后的重量都和自己減肥前的重量有關。但不同人之間卻是獨立的。令減肥前的重量均值為 1 ,而減肥后的均值為2 ;這樣所要進行的檢驗為: H0: 12 H1: 1大于
8、2一、方差分析的基本思想1、定義方差分析又稱變異數(shù)分析或F檢驗,其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗兩個或多個樣本均數(shù)的差異是否有統(tǒng)計學意義。v 2、了解方差分析中幾個重要概念:v (1)觀測因素或稱為觀測變量 如:考察農作物產(chǎn)量的影響因素。農作物產(chǎn)量就是觀測變量。v (2)控制因素或稱控制變量進行試驗(實驗)時,我們稱可控制的試驗條件為因素(Factor),因素變化的各個等級為水平(Level)。 影響農作物產(chǎn)量的因素,如品種、施肥量、土壤等。如果在試驗中只有一個因素在變化,其他可控制的條件不變,稱它為單因素試驗; 若試驗中變化的因素有兩個或兩個以上,則稱為雙因素或多因素試驗
9、。 v 方差分析就是從觀測變量的方差入手,研究諸多控制變量(因素)中哪些變量是對觀測變量有顯著影響的變量v 3、方差分析的基本原理 設有r個總體,各總體分別服從 ,假定各總體方差相等。現(xiàn)從各總體隨機抽取樣本。透過各總體的樣本數(shù)據(jù)推斷r個總體的均值是否相等?:至少有一組數(shù)據(jù)的平均值與其它組的平均值有顯著性差異。 v 分析的思路:用離差平方和(SS)描述所有樣本總的變異情況,將總變異分為兩個來源: (1)組內變動(within groups),代表本組內各樣本與該組平均值的離散程度,即水平內部(組內)方差 (2)組間變動(between groups),代表各組平均值關于總平均值的離散程度。即水平
10、之間(組間)方差即:SS總=SS組間+SS組內v 消除各組樣本數(shù)不同的影響-離差平方和除以自由度(即均方差)。從而構造統(tǒng)計量:v 方差分析的基本思想就是通過組內方差與組間方差的比值構造的F統(tǒng)計量,將其與給定顯著性水平、自由度下的F值相對比,判定各組均數(shù)間的差異有無統(tǒng)計學意義。v 零假設否定域:v 例2 SIM手機高、中、低三種收入水平被調查者的用戶滿意度是否有顯著性差異即:研究被調查者的收入水平是否會影響其對SIM手機的滿意程度。v SPSS處理:Analyze Compare Mean One-Way ANOVA v 多元方差分析(操作參見書例2.1,第36頁):v SPSS 選項: Ana
11、lyze General Linear Model Multivariate 可用男、女生的身高、體重、胸圍組成的樣本均數(shù)向量推論該年級男、女生身體發(fā)育指標的總體均數(shù)向量1和2相等與否, 得到: F=8.8622,P=0.0008。拒絕該年級男女生身體發(fā)育指標的總體均數(shù)向量相等的假設,從而可認為該校男女生身體發(fā)育狀況不同。v 4、方差分析的應用條件 (1)可比性,若資料中各組均數(shù)本身不具可比性則不適用方差分析。 (2)正態(tài)性,各組的觀察數(shù)據(jù),是從服從正態(tài)分布的總體中隨機抽取的樣本。即偏態(tài)分布資料不適用方差分析。對偏態(tài)分布的資料應考慮用對數(shù)變換、平方根變換、倒數(shù)變換、平方根反正弦變換等變量變換方
12、法變?yōu)檎龖B(tài)或接近正態(tài)后再進行方差分析。v (3)方差齊性,各組的觀察數(shù)據(jù),是從具有相同方差的相互獨立的總體中抽取得到的。即若組間方差不齊則不適用方差分析。依據(jù)涉及的分析變量多少分為:一元方差分析、多元方差分析依據(jù)對分析變量的影響因素的數(shù)量分為:單因素方差分析、多因素方差分析v 一、什么是聚類分析?v 聚類分析(P54) 是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法。 將個體或對象分類,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強。 v 聚類分析的目的(P54) 使類內對象的同質性最大化和類間對象的異質性最大化。v 二、聚類分析的基本思想:是根據(jù)一批樣品的多
13、個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。把相似的樣品或指標歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標)聚合完畢. v 相似樣本或指標的集合稱為類。v 1、聚類分析的類型有: 對樣本分類,稱為Q型聚類分析 對變量分類,稱為R型聚類分析 Q型聚類是對樣本進行聚類,它使具有相似性特征的樣本聚集在一起,使差異性大的樣本分離開來。 R型聚類是對變量進行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。v 2、聚類分析的方法: 系
14、統(tǒng)聚類(層次聚類) 非系統(tǒng)聚類(非層次聚類)v 系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類v 非系統(tǒng)聚類法包括:模糊聚類法、K均值法(快速聚類法)等等v 常用距離: (1)、明考夫斯基距離(Minkowski distance)明氏距離有三種特殊形式: (1a)、絕對距離(Block距離):當q=1時(1b)歐氏距離(Euclidean distance):當q=2時 (1c)切比雪夫距離:當 時v 當各變量的單位不同或測量值范圍相差很大時,不應直接采用明氏距離,而應先對各變量的數(shù)據(jù)作標準化處理,然后用標準化后的數(shù)據(jù)計算距離。常用的標準化處理: 其中 為第j個變量的樣本均值;為第j個變量的樣本
15、方差。v (4)馬氏距離克服量綱的影響 克服指標間相關性的影響缺點:協(xié)方差矩陣難以確定馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關性。如果假定各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權數(shù)進行加權的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關性,而且也考慮到了各個觀測指標取值的差異程度,為了對馬氏距離和歐氏距離進行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個例子。v 1、類的定義 相似樣本或指標的集合稱為類。 (數(shù)學表達見63-64頁定義3.1-3.4)v 2、類的特征描述: 設類G這一集合
16、有 m為G內的樣本數(shù)。其特征: (1)均值(或稱為重心)(2)協(xié)方差矩陣 (3) G的直徑d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45 1 2 3 4 5D1= 1 0河南與甘肅的距離最近, 2 11.67 0先將二者(3和4)合為 3 13.80 2
17、4.63 0 一類 G6=G2,G4 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0v 判別分析根據(jù)已知對象的某些觀測指標和所屬類別來判斷未知對象所屬類別的一種統(tǒng)計學方法。 如何判斷(判斷依據(jù))? 利用已知類別的樣本信息求判別函數(shù),根據(jù)判別函數(shù)對未知樣本所屬類別進行判別 判別分析的特點(基本思想) 、是根據(jù)已掌握的、歷史上若干樣本的p個指標數(shù)據(jù)及所屬類別的信息,總結出該事物分類的規(guī)律性,建立判別公式和判別準則。 2、根據(jù)總結出來的判別公式和判別準則,判別未知類別的樣本點所屬的類別。v 判別分析的目的:識別一個個體所屬類別3、判別分析和聚類分析往往聯(lián)
18、合使用。當總體分類不清楚時,先用聚類分析對一批樣本進行分類,再用判別分析構建判別式對新樣本進行判別。此外判別分析變量情況: 被解釋變量為屬性變量; 解釋變量是定量變量。判別分析類型及方法 (1)按判別的組數(shù)來分,有兩組判別分析和多組判別分析 (2)按區(qū)分不同總體所用的數(shù)學模型來分,有線性判別和非線性判別 (3)按判別對所處理的變量方法不同有逐步判別、序貫判別。 (4)按判別準則來分,有費歇爾判別準則、貝葉斯判別準則距離判別基本思想即:首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心即各組(類)的均值,判別的準則是對任給樣品,計算它到各類平均數(shù)的距離,哪個距離最小就將它判歸哪個類。(一)兩個總體的距離
19、判別法 1、方差相等 先考慮兩個總體的情況,設有兩個協(xié)差陣S相同的p維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:2、當總體的協(xié)方差已知,且不相等貝葉斯(Bayes)判別 -(考計算題)o 貝葉斯判別法是通過計算被判樣本x屬于k個總體的條件概率P(n/x),n=1,2.k. 比較k個概率的大小,將樣本判歸為來自出現(xiàn)概率最大的總體(或歸屬于錯判概率最小的總體)的判別方法。o 一、最大后驗概率準則o 例7:設有,和三個類,欲判別某樣本屬于哪一類已知現(xiàn)利用后驗概率準則計算屬于各組的后驗概率:貝葉斯公式:o
20、 所謂Fisher判別法,就是用投影的方法將k個不同總體在p維空間上的點盡可能分散,同一總體內的各樣本點盡可能的集中。用方差分析的思想則可構建一個較好區(qū)分各個總體的線性判別法 - (只作了解)例:設先驗概率、誤判損失及概率密度如下:試用貝葉斯判別法將樣本x0判到G1、G2、G3中的一個??紤]與不考慮誤判損失的結果如何?1、考慮誤判損失:誤判到G1的平均損失為ECM10.55*0.46*0+0.15*1.5*400+0.30*0.70*100誤判到G2的平均損失為ECM20.55*0.46*20+0.15*1.5*0+0.30*0.70*50誤判到G3的平均損失為ECM30.55*0.46*80
21、+0.15*1.5*200+0.30*0.70*0其中ECM2最小,故將x0判別到G2。2、不考慮誤判損失: 將x0判別到G1的條件概率為: P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)= 將x0判別到G2的條件概率為: P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 將x0判別到G3的條件概率為: P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)= 其中P(G1/x0) 取值最大,故將x0判別到G1。主成分分析的重點v
22、1、掌握什么是主成分分析?v 2、理解主成分分析的基本思想和幾何意義?v 3、理解主成分求解方法:協(xié)方差矩陣與相關系數(shù)矩陣的差異?v 4、掌握運用SPSS或SAS軟件求解主成分v 5、對軟件輸出結果進行正確分析v 主成分分析:將原來較多的指標簡化為少數(shù)幾個新的綜合指標的多元統(tǒng)計方法。v 主成分:由原始指標綜合形成的幾個新指標。依據(jù)主成分所含信息量的大小成為第一主成分,第二主成分等等。v 主成分分析得到的主成分與原始變量之間的關系: 1、主成分保留了原始變量絕大多數(shù)信息。 2、主成分的個數(shù)大大少于原始變量的數(shù)目。 3、各個主成分之間互不相關。 4、每個主成分都是原始變量的線性組合。v 滿足如下的
23、條件: 1、每個主成分的系數(shù)平方和為1。即 2、主成分之間相互獨立,即無重疊的信息。即 3、主成分的方差依次遞減,重要性依次遞減,即F1、F2.Fp分別稱為原變量的第一、第二.第p個主成分。根據(jù)旋轉變換的公式:旋轉變換的目的:為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。總體主成分的求解及其性質v 矩陣知識回顧:(1)特征根與特征向量A、若對任意的k階方陣C,有數(shù)字 與向量 滿足: ,則稱 為C的特征根, 為C的相應于 的特征向量。B、同時,方陣C的特征根 是k階方程 的根。(2)任一k階方陣C的特征根 的性質:(3)任一k階的實對稱矩陣C的性質:A、實對稱矩陣C的非零特征根的數(shù)目C的秩B、k階的實對稱矩陣存在k個實特征根C、實對稱矩陣的不同特征根的特征向量是正交的D、若 是實對稱矩陣C的單位特征向量,則若矩陣 ,是由特征向量 所構成的,則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲培訓計劃方案
- 藥品崗位職責培訓
- 2025至2030年中國血管內皮生長因子市場分析及競爭策略研究報告
- 2025至2030年中國復方氨基比林針市場分析及競爭策略研究報告
- 2025至2030年中國單杠毛巾架市場調查研究報告
- 2025━2030年復方蛇脂軟膏行業(yè)深度研究報告
- 2025━2030年兩路電動舵機驅動電路行業(yè)深度研究報告
- 2025-2035年全球及中國表面底漆行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國烴類制冷劑行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國抗青光眼藥物行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025年湖南水利水電職業(yè)技術學院單招職業(yè)技能測試題庫參考答案
- (部編版2025新教材)道德與法治一年級下冊-第1課《有個新目標》課件
- 廉政從業(yè)培訓課件
- 2024年湖北省聯(lián)合發(fā)展投資集團有限公司人員招聘考試題庫及答案解析
- DB13(J)T 8359-2020 被動式超低能耗居住建筑節(jié)能設計標準(2021年版)
- T∕ACSC 01-2022 輔助生殖醫(yī)學中心建設標準(高清最新版)
- 潘通色卡TCX棉布色彩電子版查詢部分
- 第三章社科信息檢索原理與技術PPT課件
- 《當代廣播電視概論》試題A卷及答案
- 聲學原理及聲學測試
- 淺談如何培養(yǎng)中學生的體育學習動機
評論
0/150
提交評論