多元統(tǒng)計分析課件_第1頁
多元統(tǒng)計分析課件_第2頁
多元統(tǒng)計分析課件_第3頁
多元統(tǒng)計分析課件_第4頁
多元統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、多元分析參考資料李衛(wèi)東:應用多元統(tǒng)計分析王靜敏:多元統(tǒng)計分析方法SPSS軟件應用主要內(nèi)容1 概述2 多元分析的描述性統(tǒng)計3多元分析方法及SPSS實現(xiàn)1 概述多元數(shù)據(jù)的廣泛存在企業(yè)文化:領導風格、能力績效導向、人際和諧、凝聚力卓越創(chuàng)新、組織學習、文化認同人格特質(zhì):外向性、接納性、責任感、情緒穩(wěn)定性、開放性自我價值感:自我評價、自我感受、自我價值判斷、自我體驗、人格傾向1 概述定義多元分析也叫多變量統(tǒng)計分析,以多維數(shù)據(jù)集合為對象,進行統(tǒng)計數(shù)據(jù)的收集、整理、顯示、分析,以揭示各類現(xiàn)象內(nèi)在數(shù)量規(guī)律性的理論和方法。2 多元分析的描述性統(tǒng)計多元分析的數(shù)據(jù)結(jié)構n個樣品p個變量的數(shù)據(jù)n個樣品 (樣本點/cas

2、e)p個變量 (指標/variable) 變量1 變量2 . 變量p樣品1樣品2樣品n2 多元分析的描述性統(tǒng)計描述統(tǒng)計量均值向量方差和協(xié)方差矩陣相關系數(shù)矩陣圖形散點矩陣圖輪廓圖閃電圖雷達圖2.1 描述統(tǒng)計量方差和協(xié)方差矩陣方差表示變量離散程度,協(xié)方差變量間的協(xié)同關系變量k的方差變量i和變量k的協(xié)方差當i=k時2.1 描述統(tǒng)計量相關系數(shù)矩陣第i個和第k個變量的相關系數(shù)為相關系數(shù)是協(xié)方差的標準化形式;相關系數(shù)的取值在-1到+1之間;相關系數(shù)衡量的是變量間線性關系的強度2.2 圖形散點矩陣圖多個變量之間的關系輪廓圖閃電圖雷達圖可以很直觀進行樣品間的比較,并且可以用于樣品的初步分組和驗證聚類分析的結(jié)果

3、n很小,p比較大2.2 圖形輪廓圖橫坐標取p個點,表示p個變量;對于某一樣品,縱坐標表示每個變量的取值,將p個點用直線連起來;依次畫n個樣品的圖。2.2 圖形閃電圖類似于輪廓圖旋轉(zhuǎn)90度直觀上便于各樣品之間的比較3多元分析方法及SPSS實現(xiàn)聚類分析判別分析主成分分析3.1 聚類分析聚類分析是根據(jù)“物以類聚”的道理,對樣品或變量進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性進行分類,事先沒有任何模式可供參考或依據(jù),即是在沒有先驗知識的情況下進行的。其基本思想是根據(jù)事物本身的特性研究個體分類的方法;聚類原則是同一類中的個體有較大的相似性,不同類中的個體差異很大

4、。3.1 聚類分析變量按測量尺度分類間隔尺度變量(定量)連續(xù)變量,如長度、重量、速度、溫度等有序尺度變量(定性)等級變量,不可加,但可比,如一等品、二等品、三等品名義尺度變量(定性)類別變量,不可加也不可比,如性別、職業(yè)等3.1 聚類分析聚類分析的分類距離Q型聚類相似系數(shù)R型聚類聚類的方法系統(tǒng)聚類法動態(tài)聚類法有序樣品聚類法3.1 聚類分析的主要步驟選擇變量計算相似性(距離、相似系數(shù))聚類聚類結(jié)果的解釋3.1.1 距離Q型聚類主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的分類)明氏距離(包括:絕對距離、歐氏距離、切比雪夫距離)蘭氏距離馬氏距離3.1.1 距離Q型聚類數(shù)據(jù)的變換方法中心

5、化變換標準化變換(Z分數(shù))對數(shù)變換3.1.1 距離Q型聚類距離明氏距離3.1.1 距離Q型聚類距離馬氏距離馬氏距離又稱為廣義歐式距離。馬氏距離考慮了觀測變量之間的相關性,而且也考慮了各個觀測指標取值的差異程度,它消除了各觀測變量不同量綱的影響。由于計算馬氏距離需要計算協(xié)方差陣,在實際中效果不是很好,因而,在實際聚類分析中,馬氏距離也不是理想的距離。通常人們?nèi)韵矚g應用歐氏距離進行聚類。3.1.1 距離Q型聚類距離定性變量樣品間的距離:3.1.2 相似系數(shù)R型聚類主要用于對變量分類常用的相似系數(shù)有:夾角余弦皮爾遜相關系數(shù)3.1.2 相似系數(shù)R型聚類夾角余弦Pearson相關系數(shù)3.1.3 系統(tǒng)聚類

6、法初始每個樣本自成一類,并規(guī)定樣品間的距離和類與類間的距離;然后距離最近的兩類合并成為新類,并計算新類與其它類間的距離;接下去再將最近小類聚成一類,如此反復,直到所有樣本聚成一類為止。3.1.3 系統(tǒng)聚類法基本步驟計算n個樣品兩兩間的距離,構成距離矩陣,記作D(0)。n個樣品自成一類,類與類間的距離與樣品間的距離相同(除離差平方和外),即D(1) = D(0) 。合并距離最近的兩類為一新類。計算新類與當前各類的距離。若類的個數(shù)等于1,轉(zhuǎn)到步驟(5),否則回到步驟(3)。畫聚類圖。決定類的個數(shù),及各類包含的樣品數(shù)。3.1.3 系統(tǒng)聚類法類間距離最短距離法最長距離法重心法類平均法Ward最小方差法

7、3.1.3 系統(tǒng)聚類法類間距離S1S3S2S4S5最短距離(single linkage)最長距離(complete linkage)3.1.3 系統(tǒng)聚類法類間距離S1S3S4S53.1.3 系統(tǒng)聚類法類間距離S1S3S2S4S5重心間距離(centroid)3.1.3 系統(tǒng)聚類法類間距離S1S3S2S4S5平均距離(average)3.1.3 系統(tǒng)聚類法類間距離離差平方和法(Ward法)同一類內(nèi)樣品的離差平方和應該較小,不同類之間樣品的離差平方和應該較大必須采用平方歐氏距離兩類合并后增加的離差平方和為類間的平方距離。6個不同民族的標化死亡率與出生時的期望壽命 民族原始數(shù)據(jù)標準化數(shù)據(jù)標化死亡率

8、()出生時期望壽命(歲)標化死亡率()出生時期望壽命(歲)滿族 5.8070.59-1.59 1.44朝鮮族 7.4467.14-0.62 0.73蒙古族 8.1165.48-0.22 0.38維吾爾族10.2158.88 1.03-0.99藏族 9.5159.24 0.61-0.91哈薩克族 9.81 60.47 0.79-0.66均數(shù)8.480063.6333 0.00 0.00標準差1.68664.8167 1.00 1.00各民族之間的歐氏距離(標準化資料)D(1)滿族朝鮮族蒙古族維吾爾族藏族哈薩克族G1=S1G2=S2G3=S3G4=S4G5=S5G6=S6滿族G1=S10朝鮮族G2

9、=S21.2080蒙古族G3=S31.7320.5260維吾爾族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.5390.4220哈薩克族G6=S63.1731.9731.4480.4060.3110最短距離系統(tǒng)聚類D(2) G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.1731.9731.4480.4060最短距離系統(tǒng)聚類D(3)G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S3

10、1.7320.5260G8=S4,S5,S63.1731.9731.4480最短距離系統(tǒng)聚類D(4)G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.2080G8=S4,S5,S63.1731.4480最短距離系統(tǒng)聚類D(5)G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S61.4480譜系聚類圖(最短距離法) 藏族哈薩克族 維吾爾族 朝鮮族 蒙古族 滿族 Dendrograms (cluster trees) 0.3110.4060.5261.2081.448最長距離系統(tǒng)聚類各民族之間的歐氏距離(標準化資料)D(

11、1)滿族朝鮮族蒙古族維吾爾族藏族哈薩克族G1=S1G2=S2G3=S3G4=S4G5=S5G6=S6滿族G1=S10朝鮮族G2=S21.2080蒙古族G3=S31.7320.5260維吾爾族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.5390.4220哈薩克族G6=S63.1731.9731.4480.4060.3110最長距離系統(tǒng)聚類D(2) G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.2242.0481.5390.4

12、220最長距離系統(tǒng)聚類D(3)G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.5702.3741.8510最長距離系統(tǒng)聚類D(4)G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.7320G8=S4,S5,S63.5702.3740最長距離系統(tǒng)聚類D(5)G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S63.5700譜系聚類圖(最長距離法) 藏族哈薩克族 維吾爾族 朝鮮族 蒙古族 滿族 Dendrograms (clus

13、ter trees) 0.3110.4220.5261.7323.570最段距離與最長距離差異最長距離與最短距離的并類步驟完全一致,也是將各樣品先自成一類,然后將非對角線上最小元素對應的兩類合并。最長距離與最短距離只有兩點不同:類與類之間的距離定義不同計算新類與其他類的距離所用的公式不同3.1.3 系統(tǒng)聚類法類個數(shù)的確定觀察譜系聚類圖直觀確定由適當?shù)拈y值確定藏族哈薩克族 維吾爾族 朝鮮族 蒙古族 滿族 0.3110.4220.5261.7323.5703.1.3 動態(tài)聚類法最終分類選凝聚點初始分類分類是否合理修改分類3.1.3 動態(tài)聚類法凝聚點的選擇凝聚點就是一批有代表性的點,是欲形成類的中心

14、。凝聚點的 選擇直接決定初始分類,對分類結(jié)果也有很大的影響,由于凝聚點 的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。3.1.3 動態(tài)聚類法凝聚點的選擇3.1.3 動態(tài)聚類法初始分類人為地分類,憑經(jīng)驗將樣品進行初步分類選擇凝聚點后,每個樣品按與其距離最近的凝聚點歸類選擇一批凝聚點后,每個凝聚點自成一類,將樣品一次歸入其距離最近的凝聚點,并立即重新計算該類的中心,以此替代原來的凝聚點,再計算下一個樣品的分類,直到所有樣品都歸類為止3.1.3 動態(tài)聚類法修改分類K均值法(K-Means)人為指定分類數(shù)k,凝聚點取前K個樣品對剩下的n-k個樣品,分別計算每個樣品到凝聚點的距離,將每個樣品歸入最近的凝聚點的

15、那一類。這時歸類方法有:將n-k個樣品逐個進入,每當把一個樣品歸入某類后,立即重新計算該類的重心,將重心作為新的凝聚點。這個方法也稱為逐個修改法。將n-k個樣品一次全部歸入k個類,然后計算各類的重心,作為新的凝聚點。計算每個點的密度(半徑=d)確定初始凝聚點,初始分類調(diào)整重心,修改分類聚類分析的spss實現(xiàn)第一類:北京、天津、上海文化程度較高的地區(qū)第三類:12安徽、23貴州、24云南、27甘肅、28青海、29寧夏文化程度較落后的地區(qū)第四類:25西藏文化程度最落后的地區(qū)第二類:其他省、市、自治區(qū)文化程度中等水平的地區(qū)3.2 判別分析判別分析是多元統(tǒng)計分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法,

16、是一種在已知研究對象用某種方法分成若干類的情況下,確定新樣品的觀測數(shù)據(jù),判定新樣品所屬類別的方法??傮wG1,G2所測量的變量X1.腫瘤良性與惡性腫瘤的大小、生長速度、質(zhì)地2.是高鶚寫與不是高鶚寫句子的長度、某些詞語的出現(xiàn)頻率3.兩年內(nèi)企業(yè)破產(chǎn)與不破產(chǎn)某些財務變量4.新產(chǎn)品的速購者與遲購者教育、收入、家庭大小、曾更換品牌的次數(shù)5.有償付力與無償付力的保險公司總資產(chǎn)、股票與債券價值、簽訂的保付金額等3.2 判別分析3.2 判別分析判別分析與聚類分析不同。判別分析要求具有一定的先驗信息,是在一直研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數(shù)據(jù),然后在此基礎上根據(jù)某些準則建立判別

17、式,然后對未知類型的樣品進行判別分類。對于聚類分析來說,對于一批給定樣品要劃分的類型事先并無先驗信息,需要通過聚類分析以確定分類。因此,判別分析和聚類分析往往聯(lián)合起來使用,例如判別分析要求先知道各類總體情況才能判斷新樣品的歸類。當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式對新樣品進行判別。3.2 判別分析基本步驟已知k個總體G1,G2,Gk。確立判別準則根據(jù)訓練樣品建立判別函數(shù)根據(jù)判別函數(shù)對待判樣品進行歸類3.2 判別分析判別準則:用于衡量新樣品與各已知組別接近程度的思路原則常用的有:距離準則、Fisher準則、貝葉斯準則判別函數(shù):基于一定的判別準則計

18、算出的用于衡量新樣品與各已知組別接近程度的描述指標3.2 判別分析按照判別組數(shù)劃分有兩組判別分析和多組判別分析; 按照區(qū)分不同總體的所用數(shù)學模型來分有線性判別分析和非線性判別分析; 按照處理變量的方法不同有逐步判別、序貫判別等; 按照判別準則來分有距離準則、費希爾準則與貝葉斯判別準則。3.2 判別分析判別方法距離判別法(距離準則)費希爾判別法(費希爾準則)貝葉斯判別法(貝葉斯準則)3.2.1 距離判別法基本思想:按就近原則歸類判別準則:根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心;對于任給一次觀測值,若它與第 i 類的重心距離最近,就認為它來自于第i 類。馬氏距離3.2.2 費希爾判別基本思想:投影

19、判別準則:即把K類的m維數(shù)據(jù)投影(變換)到某一個方向;判別的結(jié)果應該使類間區(qū)別最大,使類內(nèi)部離散性最小通常用于兩類判別3.2.1 費希爾(Fisher)判別YXL=b1X+b2YG1G23.2.2 費希爾判別判別函數(shù)設有A、B兩個總體,分別有n1和n2個歷史樣本數(shù)據(jù),每個樣本有p個觀測指標,每個樣本可看作p維空間中的一點。Fisher借助于方差分析的思想構造一個線性判別函數(shù):3.2.2 貝葉斯判別法基本思想考慮總體出現(xiàn)的概率的 (先驗概率)判別準則:計算被判樣本 x 屬于 k 個總體的條件概率P(n|x) (n=1,2.k)(后驗概率). 比較 k 個概率的大小,將樣本判歸為來自出現(xiàn)概率最大的

20、總體(或歸屬于錯判概率最小的總體)的判別方法.3.2.2 貝葉斯判別法確定先驗概率先驗概率表示對各總體的先知認識。先驗概率并不容易獲得,下面介紹幾種獲得先驗概率的方法:基于經(jīng)驗或者歷史資料進行估計利用訓練樣本中各種樣品所占的比例假定q1 = q2 = qk =1/k 辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2。一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人? 3.2.2 貝葉斯判別法確定后驗概率B

21、ayes公式:3.2.2 貝葉斯判別法判別函數(shù)判別分析的spss實現(xiàn)類別國家名稱出生時預期壽命(歲)成人識字率(%)人均GDP(美元)(發(fā)達國家)美國76.099.08374.00日本79.599.05359.00瑞士78.099.05372.00阿根廷72.195.95254.00阿聯(lián)酋73.877.75370.00(發(fā)展中國家)保加利亞71.293.04250.00古巴75.394.93412.00巴拉圭70.091.23390.00格魯吉亞72.899.02300.00南非62.980.63799.00待判樣品中國68.579.31950.00羅馬尼亞69.996.92840.00希臘7

22、7.693.85233.00哥倫比亞69.390.35158.00Bayes判別函數(shù):Y1=6.053X1-0.606X2+0.008X3-225.216Y2=5.295X1-0.380X2+0.005X3-178.921Fisher判別函數(shù):Y=0.24X1-0.072X2+0.001X3-14.6773.2 主成分分析主成分分析又稱主分量分析,通過線性變換,將多個指標化為少數(shù)幾個綜合指標的統(tǒng)計分析方法。變量之間有一定的相關性,主成分分析可將相關的指標化為一些不相關的指標,避免了信息重疊帶來的虛假性。另外,變量太多會增大計算量和增加分析問題的復雜性。3.2 主成分分析一項十分著名的工作是美國的統(tǒng)計學家斯通(Stone)在1947年關于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。在進行主成分分析后,竟以9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論