版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多元統(tǒng)計(jì)分析重點(diǎn)宿舍版第一講:多元統(tǒng)計(jì)方法及應(yīng)用;多元統(tǒng)計(jì)方法分類(按變量、模型、因變量等)多元統(tǒng)計(jì)分析應(yīng)用選擇題:數(shù)據(jù)或結(jié)構(gòu)性簡(jiǎn)化運(yùn)用的方法有:多元回歸分析,聚類分析,主成分分析,因子分析分類和組合運(yùn)用的方法有:判別分析,聚類分析,主成分分析變量之間的相關(guān)關(guān)系運(yùn)用的方法有:多元回歸,主成分分析,因子分析,預(yù)測(cè)與決策運(yùn)用的方法有:多元回歸,判別分析,聚類分析因果模型( 因變量數(shù)) :多元回歸,判別分析橫貫數(shù)據(jù):相依模型( 變量測(cè)度) :因子分析,聚類分析多元統(tǒng)計(jì)分析方法選擇題:多元統(tǒng)at方法的分類:1)按測(cè)量數(shù)據(jù)的來(lái)源分為:橫貫數(shù)據(jù)(同一時(shí)間不同案例的觀測(cè)數(shù)據(jù)),縱觀數(shù)據(jù)(同樣案例在不同時(shí)間的
2、多次觀測(cè)數(shù)據(jù))2) 按變量的測(cè)度等級(jí)(數(shù)據(jù)類型)分為: 類別 (非測(cè)量型)變量,數(shù)值型(測(cè)量型)變量3) 按分析模型的屬性分為:因果模型,相依模型4)按模型中因變量的數(shù)量分為:?jiǎn)我蜃兞磕P?,多因變量模型,多層因果模型第二講:計(jì)算均值、協(xié)差陣、相關(guān)陣;相互獨(dú)立性第三講:主成分定義、應(yīng)用及基本思想,主成分性質(zhì),主成分分析步驟主成分定義: 何謂主成分分析就是將原來(lái)的多個(gè)指標(biāo)(變量)線性組合成幾個(gè)新的相互無(wú)關(guān)的綜合指標(biāo)(主成分), 并使新的綜合指標(biāo)盡可能多地反映原來(lái)的指標(biāo)信息。主成分分析的應(yīng)用: ( 1)數(shù)據(jù)的壓縮、結(jié)構(gòu)的簡(jiǎn)化;( 2)樣品的綜合評(píng)價(jià),排序主成分分析概述一一思想: (1)把給定的一組變
3、量 X1,X2,-XP通過(guò)線性變換,轉(zhuǎn) 換為一組不相關(guān)的變量 Y1, Y2, - YR (2)在這種變換中,保持變量的總方差 (X1,X2, - Xp的方差之和)不變,同時(shí),使Y1具有最大方差,稱為第一主成分;Y2具有次大方差,稱為第二主成分。依次類推,原來(lái)有P 個(gè)變量,就可以轉(zhuǎn)換出P 個(gè)主P 個(gè)變量的絕大部分成分(3)在實(shí)際應(yīng)用中,為了簡(jiǎn)化問(wèn)題,通常找能夠反映原來(lái)方差的q (q<p)個(gè)主成分。主成分性質(zhì):1)性質(zhì)1:主成分的協(xié)方差矩陣是對(duì)角陣:(2)性質(zhì)2:主成分的總方差等于原始變量的總方差(3)性質(zhì)3:主成分Yk與原始變量Xi的相關(guān)系數(shù)為:pV,一、k (YK,XD =,tki,并稱
4、之為因子負(fù)荷量(或因子載荷量)。V CT ii主成分分析的具體步驟:將原始數(shù)據(jù)標(biāo)準(zhǔn)化;建立變量的相關(guān)系數(shù)陣;求的特征根為:L * 0,相應(yīng)的特征向量為Ti*,T*,L ,T;由累積方差貢獻(xiàn)率確 p定王成分的個(gè)數(shù)(m ),并與出王成分為 Y (Ti ) X , i 1,2,L ,m第四講:因子分析定義,因子載荷統(tǒng)計(jì)意義,因子分析模型及假設(shè),因子旋轉(zhuǎn)因子分析定義:因子分析就是通過(guò)對(duì)多個(gè)變量的相關(guān)系數(shù)矩陣的研究,找出同時(shí)影響或支配所有變量的共性因子的多元統(tǒng)計(jì)方法。因子載荷統(tǒng)計(jì)意義:1.因子載荷aj的統(tǒng)計(jì)意義對(duì)于因子模型i 1,2,L , pXiai1F1ai2F2LajFj LaimFmi我們可以得
5、到, Xi與Fj的協(xié)方差為:m Cov(Xi,Fj) Cov(aikFki,Fj)k 1mCov(aikFk,Fj) Cov( i,Fj)_k 1aij如果對(duì)Xi作了標(biāo)準(zhǔn)化處理,Xi的標(biāo)準(zhǔn)差為1,且Fj的標(biāo)準(zhǔn)差為1,因此rXi,FjCov(Xi,Fj)D(Xi) D(Fj)Cov(Xi,Fj) aj(7.6)那么,從上面的分析,我們知道對(duì)于標(biāo)準(zhǔn)化后的Xi, aj是Xi與Fj的相關(guān)系數(shù),它一方面表示Xi對(duì)Fj的依賴程度,絕對(duì)值越大,密切程度越高;另一方面也反映了 變量Xi對(duì)公共因子Fj的相對(duì)重要性。了解這一點(diǎn)對(duì)我們理解抽象的因子含義有非 常重要的作用。h22變量共同度hi 的統(tǒng)計(jì)意義設(shè)因子載荷矩
6、陣為A ,稱第 i 行元素的平方和,即m 22hiaiji 1,2,L , pj 1( 7.7)為變量Xi的共同度。由因子模型,知2ai2mD(Fm) D( i)22D(Xi) ai21D(F1) ai22D(F2) L22ai1 ai2 L2aimD ( i )h22ii7.8)這里應(yīng)該注意,7.8)式說(shuō)明變量Xi 的方差由兩部分組成:第一部分為共同度hi2 ,Xi它描述了全部公共因子對(duì)變量X i的影響程度。第二部分為特殊因子i 對(duì)變量Xi 的方差的貢獻(xiàn),通常稱為個(gè)性方差。如果對(duì)Xi作了標(biāo)準(zhǔn)化處理,有227.9)1 hi iF23、公因子j的方差貢獻(xiàn)gj的統(tǒng)計(jì)意義設(shè)因子載荷矩陣為A ,稱第
7、j 列元素的平方和,即p22gjaijj 1,2,L , mi1F2F為公共因子F j 對(duì) X 的貢獻(xiàn), 即 g j 表示同一公共因子F j 對(duì)各變量所提供的方差貢獻(xiàn)之總和,它是衡量每一個(gè)公共因子相對(duì)重要性的一個(gè)尺度。因子分析模型及假設(shè)數(shù)學(xué)模型:每一個(gè)變量都可以表示成公共因子的線性函數(shù)與特殊因子之和,即:Xi=ai1*F1+a12*F2+ - +aim*Fm+ i (i=1,2,p)式中的 F1, F2, Fm 稱為公共因子,G 稱為Xi的特殊因子。該模型可用矩陣表示為:X=AF+s,且滿足:(1) mWp(2)Cov(F, )=0,即公共因子與特殊因子是不相關(guān)的;(3) DF=D(F尸21
8、,0,0.020,2 ,0.01,0,0.00,1,0.00,0,0.1=Im,即各個(gè)公共因子不相關(guān)且方差為0,0,0.1; ( 4) D =D( )=即各個(gè)特殊因子不相關(guān),方差不要求相等。因子旋轉(zhuǎn)因子旋轉(zhuǎn)的目的:初始因子的綜合性太強(qiáng),難以找出因子的實(shí)際意義,因此需要通過(guò)坐標(biāo)旋轉(zhuǎn),使因子負(fù)荷兩極分化,要么接近于0,要么接近于? 1 ,從而降低因子的綜合性,使其實(shí)際意義凸現(xiàn)出來(lái),以便于解釋因子。因子旋轉(zhuǎn)的基本方法:一類是正交旋轉(zhuǎn)(保持因子間的正交性,3 種,常用最大方差旋轉(zhuǎn)) ,一類是斜交旋轉(zhuǎn)(因子間不一定正交)公共因子提取個(gè)數(shù):( 1 )選特征值大于等于1 的因子(主成分)作為初始因子,通過(guò)求
9、響應(yīng)的標(biāo)準(zhǔn)化正交特征向量來(lái)計(jì)算因子載荷( 2) 碎石圖:刪去特征值變平緩的那些因子(3)累計(jì)方差貢獻(xiàn)率大于85%第五講:聚類類型,系統(tǒng)聚類、K-均值聚類思想及步驟,系統(tǒng)聚類方法,相似性測(cè)度方法聚類類型:根據(jù)分類的對(duì)象可將聚類分析分為:系統(tǒng)Q 型與R 型(即樣品聚類與變量聚類)系統(tǒng)聚類、K-均值聚類思想及步驟:系統(tǒng)聚類的基本思想:距離相近的樣本(或 變量)先聚成類,距離相遠(yuǎn)的后聚成類,過(guò)程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。聚類過(guò)程及步驟:假設(shè)總共有n個(gè)樣品(或變量),第一步將每個(gè)樣品(或變量)獨(dú)自聚成一類,共有n 類;第二步根據(jù)所確定的樣品(或變量) “距離”公式,把距離較近的
10、兩個(gè)樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n-1類;第三步將“距離”最近的兩個(gè)類進(jìn)一步聚成一類,共聚成n-2類;,以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)全聚成一類。最后可以畫譜系圖分析??焖倬垲惖幕舅枷?,步驟:(也稱為K-均值法,逐步聚類,迭代聚類),基本思想是將每一個(gè)樣品分配給最近中心(均值)的類中,具體的算法步驟如下:( 1)將所有的樣品分成 K個(gè)初始類;(2)通過(guò)歐氏距離將某個(gè)樣品劃入離中心最近的類中,并對(duì)獲得樣品與失去樣品的類,重新計(jì)算重心坐標(biāo)。( 3)重復(fù)步驟2,直到所有的樣品都不能再分配時(shí)為止。系統(tǒng)聚類方法:最短距離法(單連接),最長(zhǎng)距離法
11、(完全連接),中間距離法,類平均法(組間平均連接法),可變類平均法,重心法 ,可變法,離差平方和法相似性測(cè)度方法:不同樣本相似性度量:距離測(cè)度里包括:明氏,馬氏,和蘭式不同變量相似度的度量:包括:夾角余弦,相關(guān)系數(shù)。第六講:判別分析及各判別方法思想,判別分析假設(shè)條件,距離判別與貝葉斯判別關(guān)系判別分析定義:一種進(jìn)行統(tǒng)計(jì)判別和分組的技術(shù)手段。它可以就一定數(shù)量案例的一個(gè)分組變量和相應(yīng)的其他多元變量的已知信息,確定分組與其他多元變量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminant Function )。然后便可以利用這一數(shù)量關(guān)系對(duì)其他已知多元變量信息、但未知分組類型所屬的案例進(jìn)行判別分組。各判別
12、方法思想: 距離判別:求新樣品 X到Gi的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于GiBayes判別:由于k個(gè)總體G1,G2, ,Gk出現(xiàn)的先驗(yàn)概率分別為q1,q2, ,qk ,則用規(guī)則R 來(lái)進(jìn)行判別所造成的總平均損失為kkkg(R) qir(i,R) qi C(j|i)P(j |i,R)1 ii i j i( 4.i2)所謂Bayes判別法則,就是要選擇 R1 ,R2, , Rk ,使得(4.12)式表示的總平均損失g(R)達(dá)到極小。 Fisher 判別的基本思想和步驟:從 K 個(gè)總體中抽取具有p 個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù):U(X)=
13、1X12X2 - pXp 'X,其中系數(shù)=(1,2,p) 確定的原則是使得總體之間區(qū)別最大,而使每個(gè)總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對(duì)于一個(gè)新的樣品,將它的p 個(gè)指標(biāo)值代入線性判別函數(shù)式中求出U(X)值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。判別分析假設(shè)條件:判別分析的假設(shè)之一,是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問(wèn)題。判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來(lái)計(jì)算判別函數(shù)和進(jìn)行顯著
14、性檢驗(yàn)。判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。距離判別與貝葉斯判別關(guān)系:距離判別中兩個(gè)總體的距離判別規(guī)則為:X G1, 如果W(X) 0X G2, 如果W(X) 0x G1 ,當(dāng) V(x) d葉斯判別規(guī)則為:1,二者唯一差別僅在于閥值點(diǎn),從某種x G2,當(dāng) V(x) d意義上講,距離判別是貝葉斯判別的特殊情形。題型及分?jǐn)?shù):一、判斷對(duì)錯(cuò)并改正(4 題,8 分)二、不定項(xiàng)選擇(10 題, 20 分)三、簡(jiǎn)答題(4 題, 32 分) (六選四)主
15、成分基本思想,系統(tǒng)聚類,K-均值聚類基本思想及過(guò)程, 判別分析及費(fèi)希爾基本思想,比較聚類與回歸、判別,因子分析及因子旋轉(zhuǎn)聚類與回歸、判別: 判別與回歸:聯(lián)系:都是根據(jù)已有數(shù)據(jù)判別未來(lái)趨勢(shì)。區(qū)別:多元回歸的因變量是數(shù)值型變量,且自變量可是0-1 變量;判別分析的因變量是類別型變量,而自變量不是 0-1變量判別與聚類:聚類分析:類別未知,利用樣本確定分組數(shù)及所屬類別;判別分析:類別數(shù)及意義已知,還能“預(yù)測(cè)”新樣本所屬類別;聚類中加進(jìn)一個(gè)變量需要對(duì)類進(jìn)行更新,重新計(jì)算與其他類的距離,而判別對(duì)新樣本進(jìn)行判別后,不更新所屬的類。四、計(jì)算題(1 題,10 分)計(jì)算樣本均值、協(xié)差陣、相關(guān)陣五、分析題(2 題
16、,30 分)(四選二)1)主成分分析的SPSS;例分析(主成分個(gè)數(shù)確定,主成分表達(dá)式,主成分分析步驟)2)因子分析的SPS強(qiáng)例分析(因子分析模型,公因子的解釋命名分析)(二選一)3)聚類分析的SPS強(qiáng)例分析(分類數(shù)確定, 聚類結(jié)果命名分析,優(yōu)缺點(diǎn)及改進(jìn)策略 )分類數(shù)確定 樹狀圖,確定原則是組內(nèi)距離小,組間距離大。 聚合系數(shù)圖:在曲線開始變得平緩的點(diǎn)選擇合適的分類樹 任何類都必須在鄰近各類中是突出的,即各類重心間的距離必須大 各類所包含的元素都不要過(guò)分地多 分類數(shù)目應(yīng)符合使用的目的 若采用幾種不同的聚類法,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類 對(duì)聚類過(guò)程中聚合系數(shù)分類數(shù)的變化(曲線)進(jìn)行分析,可以輔助確定合理的分類數(shù)聚類分析的缺點(diǎn) 層次聚類法的結(jié)果容易受奇異值的影響,而快速聚類法受奇異值、相似測(cè)度和不適 合的聚類變量的影響較小。 層次聚類法可以得到一系列的聚類數(shù),而快速聚類只能得到指定類數(shù)的聚類數(shù)。層次聚類法在數(shù)據(jù)比較多時(shí)計(jì)算量比較大,需要占據(jù)非常大的計(jì)算機(jī)內(nèi)存空間,而 快速聚類法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)蒙古自治區(qū)烏蘭察布市2024-2025學(xué)年八年級(jí)上學(xué)期基礎(chǔ)教育階段學(xué)生學(xué)科素養(yǎng)提升監(jiān)測(cè)物理試題(含答案)
- 廣東省潮州市2024-2025學(xué)年高二上學(xué)期期末地理試卷( 含答案)
- 6#樓勞務(wù)分包合同
- 2024訂票服務(wù)詳細(xì)條款協(xié)議示例
- 田徑接力跑 說(shuō)課稿-2023-2024學(xué)年高二上學(xué)期體育與健康人教版必修第一冊(cè)
- 2024青年雞養(yǎng)殖廢棄物資源化利用合作合同模板3篇
- 福建省南平市嵐下中學(xué)2020-2021學(xué)年高二化學(xué)期末試卷含解析
- 2024石灰石礦產(chǎn)品環(huán)保產(chǎn)業(yè)發(fā)展規(guī)劃與合作合同3篇
- 2025年度廚師長(zhǎng)離職交接與保密條款合同3篇
- 2024知名服裝品牌設(shè)計(jì)與生產(chǎn)合作合同
- (正式版)JBT 10437-2024 電線電纜用可交聯(lián)聚乙烯絕緣料
- GB∕T 26465-2021 消防員電梯制造與安裝安全規(guī)范(高清最新版)
- 泌尿道感染臨床路徑
- 古詩(shī)詞常見的修辭手法講課教案
- 科研項(xiàng)目評(píng)審評(píng)分表
- A5技術(shù)支持的課堂導(dǎo)入作業(yè)1—問(wèn)題描述.針對(duì)日常教學(xué)中的某一主題針對(duì)教學(xué)目標(biāo)、教學(xué)內(nèi)容以及教學(xué)對(duì)象用簡(jiǎn)短的語(yǔ)言描述當(dāng)前課堂導(dǎo)入環(huán)節(jié)中存在的問(wèn)題和不足以及借助信息技術(shù)改進(jìn)課堂導(dǎo)入的必要性
- 2-07端陽(yáng)賽馬節(jié)的傳說(shuō)
- 國(guó)家開放大學(xué)《土木工程力學(xué)(本)》章節(jié)測(cè)試參考答案
- 衣柜技術(shù)標(biāo)準(zhǔn)
- 某隧道二襯檢測(cè)報(bào)告范本(共13頁(yè))
- (完整版)臨時(shí)用電施工合同
評(píng)論
0/150
提交評(píng)論