版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第一章多元正態(tài)分布1. 在數(shù)據(jù)處理時,為什么通常要進行標準化處理?數(shù)據(jù)的標準化( normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特 定區(qū)間。在某些比較和評價的指標處理中經(jīng)常會用到, 去除數(shù)據(jù)的單位限制, 將 其轉化為無量綱的純數(shù)值, 便于不同單位或量級的指標能夠進行比較和加權。 其 中最典型的就是 0-1 標準化和 Z 標準化。( 1) 0-1標準化(0-1 normalization) 也叫離差標準化,是對原始數(shù)據(jù)的線性變換,使結果落到 0,1 區(qū)間,轉換函 數(shù)如下:其中 max為樣本數(shù)據(jù)的最大值, min 為樣本數(shù)據(jù)的最小值。這種方法有一個 缺陷就是當有新數(shù)據(jù)加入時,可能
2、導致 max 和 min 的變化,需要重新定義。 ( 2) Z-score 標準化(zero-mean normalization)也叫標準差標準化,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為 0,標準 差為 1,也是 SPSS中最為常用的標準化方法,其轉化函數(shù)為 :其中為所有樣本數(shù)據(jù)的均值, 為所有樣本數(shù)據(jù)的標準差。2、歐氏距離與馬氏距離的優(yōu)缺點是什么?歐氏距離( Euclidean distance)也稱歐幾里得度量、歐幾里得度量,是一個 通常采用的距離定義,它是在 m 維空間中兩個點之間的真實距離。在二維和三 維空間中的歐氏距離的就是兩點之間的距離。 缺點:就大部分統(tǒng)計問題而言,歐氏距離是
3、不能令人滿意的。 (每個坐標對歐氏 距離的貢獻是同等的。 當坐標表示測量值時,它們往往帶有大小不等的隨機波動, 在這種情況下, 合理的方法是對坐標加權, 使變化較大的坐標比變化較小的坐標 有較小的權系數(shù), 這就產(chǎn)生了各種距離。 當各個分量為不同性質(zhì)的量時, “距離” 的大小與指標的單位有關。 它將樣品的不同屬性 (即各指標或各變量) 之間的差 別等同看待, 這一點有時不能滿足實際要求。 沒有考慮到總體變異對距離遠近的 影響。馬氏距離 (Mahalanobis distance)是由印度統(tǒng)計學家馬哈拉諾比斯提出的,表 示數(shù)據(jù)的協(xié)方差距離。 為兩個服從同一分布并且其協(xié)方差矩陣為 的隨機變量與 的差
4、異程度 :如果協(xié)方差矩陣為單位矩陣 ,那么馬氏距離就簡化為歐氏距離 ,如果 協(xié)方差矩陣為對角陣 ,則其也可稱為正規(guī)化的歐氏距離。它是一種有效的計算兩 個未知樣本集的相似度的方法。 對于一個均值為 ,協(xié)方差矩陣為 的多變量向 量,樣本與總體的馬氏距離為 (dm)2=(x-)'(-1)(x- )。 在絕大多數(shù)情況下, 馬氏距離是可以順利計算的, 但是馬氏距離的計算是不穩(wěn)定 的,不穩(wěn)定的來源是協(xié)方差矩陣,這也是馬氏距離與歐式距離的最大差異之處。 優(yōu)點:它不受量綱的影響, 兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關。 (它 考慮到各種特性之間的聯(lián)系 (例如:一條關于身高的信息會帶來一條關于體重
5、的信息,因為兩者是有關聯(lián)的)并且是尺度無關的 (scale-invariant),即獨立于測量 尺度);由標準化數(shù)據(jù)和中心化數(shù)據(jù) (即原始數(shù)據(jù)與均值之差)計算出的二點之間 的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾。 缺點:夸大了變化微小的變量的作用。 受協(xié)方差矩陣不穩(wěn)定的影響, 馬氏距離并 不總是能順利計算出。3、當變量 X1 和 X2 方向上的變差相等,且與互相獨立時,采用歐氏距離與統(tǒng)計 距離是否一致?統(tǒng)計距離區(qū)別于歐式距離, 此距離要依賴樣本的方差和協(xié)方差, 能夠體現(xiàn)各 變量在變差大小上的不同, 以及優(yōu)勢存在的相關性, 還要求距離與各變量所用的 單位無關。如果各變量之間相互
6、獨立 ,即觀測變量的協(xié)方差矩陣是對角矩陣 , 則馬 氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權數(shù)的加權歐氏距離。第二章均值向量和協(xié)方差陣的檢驗3、多元均值檢驗 ,從題意知道,容量為 9 的樣本 ,總體協(xié)方差未知 假設 H0:0 , H1 :0 (n=9 p=5)檢驗統(tǒng)計量/(n-1)T2 n(X 0) S 1(X 0)服從 P,n-1 的T2分布統(tǒng)計量 T2 實際上是樣本均值與已知總體均值之間的馬氏距離再乘以n*(n-1)這個值越大,相等的可能性越小,備擇假設成立時,T2 有變大的趨勢,所以拒絕域選擇 T 2值較大的右側部分,也可以轉變?yōu)?F 統(tǒng)計量零假設的拒絕區(qū)域 (n-p)/(n-1
7、)*p* T2 >Fp,n p( )21/10* T 2 >F5,4(5)0=( 6212.01 32.87 2972 9.5 15.78)'樣本均值( 4208.78 35.12 1965.89 12.21 27.79)'(樣本均值 - 0) '=(-2003.23 2.25 -1006.11 2.71 12.01)協(xié)方差矩陣 (降維因子分析抽取 )Inter-Item Covariance Matrix人均GDP( 元)三產(chǎn)比重( % )人均消費 (元)人口增長 (%)文盲半文盲( %)人均GDP( 元)1020190.840582.460331693.
8、531-599.784-6356.325三產(chǎn)比重( % )582.46019.480-105.4646.62543.697人均消費 (元)331693.531-105.464125364.321-213.634-3130.038人口增長 (%)-599.7846.625-213.6346.09925.410文盲半文盲( %)-6356.32543.697-3130.03825.410196.884協(xié)方差的逆矩陣1.88034E-05 -0.00044037 -6.0978E-05 0.002799208 -0.00062589-0.0004403680.207023949-0.00021037
9、4-0.023704352-0.06044981-6.09781E-05-0.0002103740.00022733-0.0105018810.0030474740.00279921-0.0237044-0.01050190.85288927-0.1813998-0.000625893-0.060449810.003047474-0.181399810.070148804計算: 邊遠及少數(shù)民族聚居區(qū)社會經(jīng)濟發(fā)展水平的指標數(shù)據(jù) .xlsT 2 =9* (-2003.23 2.25 -1006.11 2.71 12.01)*s-1* (-2003.23 2.25 -1006.11 2.71 12.
10、01)'=9*50.11793817=451,06144353F 統(tǒng)計量 =45.2>6.2 拒絕零假設,邊緣及少數(shù)民族聚居區(qū)的社會經(jīng)濟發(fā)展水平與 全國平均水平有顯著差異。第三章聚類分析1. 聚類分析的基本思想和功能是什么? 研究的樣品或指標之間存著程度不同的相似性, 于是根據(jù)一批樣品的多個觀測指 標,具體找出一些能夠度量樣品或指標之間的相似程度的統(tǒng)計量, 以這些統(tǒng)計量 作為劃分類型的依據(jù), 把一些相似程度較大的樣品聚合為一類, 把另外一些彼此 之間相似程度較大的樣品又聚合為另外一類, 直到把所有的樣品聚合完畢, 形成 一個有小到大的分類系統(tǒng), 最后再把整個分類系統(tǒng)畫成一張分群圖
11、, 用它把所有 樣品間的親疏關系表示出來。作用是把相似的研究對象歸類。2. 試述系統(tǒng)聚類法的原理和具體步驟。首先將 n 個樣品看成 n類(一類包含一個樣品 ),然后將性質(zhì)最接近的兩類合并成 一個新類,得到 n-1類,再從中找出最接近的兩類加以合并變成 n-2 類,如此下 去,最后所有的樣品均在一類,將上述并類過程畫成一張圖便可決定分多少類, 每類各有哪些樣品。3. 試述 K- 均值聚類的方法原理 K-均值法是一種非譜系聚類法,把每個樣品聚集到其最近形心(均值)類中,它 是把樣品聚集成 K 個類的集合,類的個數(shù) k 可以預先給定或者在聚類過程中確 定,該方法應用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組。把樣
12、品分為 K 個初始類,進 行修改,逐個分派樣品到期最近均值的類中 (通常采用標準化數(shù)據(jù)或非標準化數(shù) 據(jù)計算歐氏距離) 重新計算接受新樣品的類和失去樣品的類的形心。 重復這一步 直到各類無元素進出。第四章 判別分析1. 應用判別分析應該具備什么樣的條件 被解釋變量是屬性變量而解釋變量是度量變量,判別分析最基本的要求是, 分組類型在兩組以上, 每組案例的規(guī)模必須至少在一個以上, 解釋變量必須是可 測量的,才能夠計算其平均值和方差,使其能合理地應用于統(tǒng)計函數(shù)。 假設之一是:每一個判別變量(解釋變量)不能是其他判別變量的線性組合。這 時,為其他變量線性組合的判別變量不能提供新的信息, 更重要的是在這種
13、情況 下無法估計判別函數(shù)。 不僅如此,有時一個判別變量與另外的判別變量高度相關, 或與另外的判別變量的線性組合高度相關, 雖然能求解, 但是參數(shù)估計的標準誤 差很大,以至于參數(shù)估計統(tǒng)計上不顯著,這就是常說的,多重共線性問題。 假設之二: 各組變量的協(xié)方差矩陣相等, 判別分析最簡單和最常用的的形式是采 用現(xiàn)行判別函數(shù), 他們是判別變量的簡單線性組合, 在各組協(xié)方差矩陣相等的假 設條件下,可以使用很簡單的公式來計算判別函數(shù)和進行顯著性檢驗。 假設之三: 各判別變量之間具有多元正態(tài)分布, 即每個變量對于所有其他變量的 固定值有正態(tài)分布,在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概 率,黨委被該
14、假設時,計算的概率將非常不準確。2. 試述貝葉斯判別法的思路 貝葉斯判別法的思路是先假定對研究的對象已有一定的認識, 常用先驗概率 分布來描述這種認識,然后我們?nèi)〉靡粋€樣本,用樣本來修正已有的認識, (先 驗概率分布),得到后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行。 將貝葉斯判別方法用于判別分析得到貝葉斯判別。( 1)最大后驗概率準則設有總體 i (i=1,2,k),具有概率密度函數(shù) fi(X) ,并且知道根據(jù)以往的統(tǒng)計分析,知道 i 出現(xiàn)的概率為 Pi。當樣本 x0 發(fā)生時,求屬于某類的概率,由貝葉斯公式計算后驗概率P( i x0)=Pi* fi(X)/ Pi* fi(X),i=1
15、,2, ,kx l ,p( l x) maxp( i x)X最大后驗概率準則采用的判別規(guī)則是:( 2)最小誤判代價準則設有 K 個總體 1, 2 ,., k 分別具有 p維密度函數(shù), p1 (x),p 2 (x),.,p k ( x) ,已知出現(xiàn)這 k 個總體的先驗概率分布為 q1 , q2 ,.qk k用 D1,D2,.,Dk表示樣本 Rp 的一個劃分, D1,D2,.,Dk互不相交,且 Di Rp,i1 如果這個劃分取得適當, 正好對應于 k 個總體,這時判別規(guī)則可以采用如下方法 x i,x落入Di,i 1,2,3.k 用c(j i)表示來自樣本 i而被誤判為 j 的損失,這一誤判的 概率
16、為 p( j i) Dj pi (x)dx 由以上判別規(guī)則帶來的平均損失 ECMkkECM (D1, D2,., Dk )qi c(j i)p(j i) 定義c(i i) 0 ,目的是求 D1, D2 ,., Dk ,i 1 j 1使得 ECM 最小3. 試述費歇判別法的思想將k組 P維數(shù)據(jù)投影到某一方向, 使得它們的投影組與組之間盡可能地分開 K 個總體分別取得 k 組 P 維觀察值G1 : x1(1),., xn(11)n n1 n2 . nkG : x(k),., x(k)Gk : x1 ,., xnk令 a 為 Rp中的任一向量, u(x) a'xn(11)為 x 向以 a為法
17、線方向的投影,這時,上G1 :a' x1(1) ,.,a(k) nk述數(shù)據(jù)的投影為Gk :a' x1( k) ,.,a 'xk組間平方和 SSG a' ni(X(i) X)(X (i) X)'a a'Ba X(i) 為第i 組均值 X 為總 i1體均值向量kk組內(nèi)平方和 SSE a'(X j(i) X (i) )(X j(i) X(i)'a a'Eai 1 j 1如果 K 組均值有顯著差異,則F SSG/ (k 1) n k a'Ba 應該充分地大 ,或者 (a) a'Ba 應充分大SSE/ (n k) k
18、 1 a'Ea a'Ea(.)的極大值為 1,它是 B E 0的最大特征根, l1, l2 ,., lr為相應的特征向量,當 a l1時,可使 (.) 達到最大值,由于 (a) 的大小可以衡量 u(x) a' x判別的效果,所以稱 (a) 為判別效率。得到以下定理:費歇準則下的線性判別函數(shù) u(x) a'x的解 a為方程 B E 0的最大特征根 1所對應的特征向量 l1 ,且相應的判別效率為 (l1) 14. 什么是逐步判別分析如果在某個判別問題中, 將起最重要的變量忽略了, 相應的判別函數(shù)的效果一定 不好。而另一方面,如果判別變量的個數(shù)太多,計算量必然大,會影
19、響估計的精 度,特別當引入了一些判別能力不強的變量時, 還會嚴重影響到判別的效果。 變 量的選擇關系到判別函數(shù)的效果, 適當篩選變量是一個很重要的問題。 凡是具有 篩選變量能力的判別方法統(tǒng)稱為逐步判別法。1)在 x1, x2 ,.xm中選出一個自變量,它使維爾克斯統(tǒng)計量i(i 1,2,.m) 達到最小,假定挑選的變量次序按照自然的次序,第一步選中x1 ,第 r 步選中 xr ,1 min i ,考察 1 是否落入接受域,如果不顯著則表明一個變量也不選 中,不能用判別分析,如顯著則進入下一步。(2)在 未選中的 變量中, 計算 它們 與已選中 變量 x1 配 合的 值,選 擇使i m2 iinm
20、i 最小的作為第二個變量,依此,如選中r 個變量,設 x1,x2,.xr,計算 1,2,.,r ,l(r l m) ,使其最小的為第 r 1個變量,檢驗第 r 1個變量能否提 供附加信息,如果能則進入第四部,不能進入第三步。( 3)在已選入的 r 個變量中,要考慮較早選中的變量中重要性有沒有較大的變 化,應及時把不能提供附加信息的變量剔除出去, 剔除的原則等同于引進的原則。例如在已進入的 r 個變量中要考察 xl (1 l r )是否應剔除,就是計算 l.1,.l 1,l 1,.r 選擇達到極小 (大)的,看是否顯著,如不顯著將該變量剔除,回到第三步,繼續(xù) 對于下的變量進行考察是否需要剔除,如
21、果顯著則回到第二步。(4)這時既不能選進新變量,又不能剔除已選進的變量,將已選中的變量簡歷 判別函數(shù)。5. 簡要敘述判別分析的步驟及流程(1)研究問題:選擇對象,評估一個多元問題各組的差異,將觀測 (個體 )歸類, 確定組與組之間的判別函數(shù)(2)設計要點:選擇解釋變量,樣本的考慮,建立分析樣本的保留樣本(3)假定:解釋變量的整體性,線性關系,解釋變量間不存在多重共線性,協(xié)方 差相等(4)估計判別函數(shù):聯(lián)立估計或者逐步估計,判別函數(shù)的顯著性(5)使用分類矩陣評估預測的精度:確定最優(yōu)臨界得分,確定準則來評估判對 比率,預測精確的統(tǒng)計顯著性(6)判別函數(shù)的解釋,需要多個函數(shù),評價單個函數(shù)主要從判別權
22、重、判別載 荷、偏 F 值幾個方面,(評價兩個以上的判別函數(shù)也需要,并且還要評價合并的 函數(shù),函數(shù)的旋轉、能力指數(shù),各組重心的圖示、判別載荷的圖示, )(7)判別結果的驗證:分開樣本或者交叉驗證,刻畫組間的差異。6. 為研究某地區(qū)人口死亡狀況,已按某種方法將15 個一直樣品分為三類,指標及原始數(shù)據(jù)見下表,試建立判別函數(shù),并判定另外四個帶判樣品屬于哪類Analysis Case Processing SummaryUnweighted CasesNPercentValid1578.9Excluded Missing or out-of-range0.0group codesTotalAt lea
23、st one missing discriminating variable Both missing or out-of-range group codes and at least one missing discriminating variableTotal419.021.121.1100.0Group StatisticsyMeanStd. DeviationValid N (listwise)UnweightedWeighted1 X1X2X3X4X5X638.742011.90001.500012.2460100.058067.46006.884346.78528.759316.
24、975857.477402.696855555555.0005.0005.0005.0005.0005.0002 X1X2X3X4X5X639.536411.49602.938027.8300151.224066.05008.372068.449112.125306.1197117.622191.907225555555.0005.0005.0005.0005.0005.0003 X1X2X3X4X5X638.500010.1180.684010.332093.946067.420010.568019.81930.907909.6736012.252763.050745555555.0005.
25、0005.0005.0005.0005.000Total X1X2X3X4X5X638.926111.17131.707316.8027115.076066.97678.104737.856361.6189710.8230629.227932.4973515151515151515.00015.00015.00015.00015.00015.000Wilks' LambdaFdf1df2Sig.X1.997.019212.981X2.990.061212.941X3.6453.301212.072X4.4387.690212.007X5.17328.728212.000X6.926.4
26、78212.631對各組均值是否相等的檢驗,在 0.01 的顯著性水平上, X4 、 X5 在三組的均值 有顯著差異反映協(xié)方差矩陣的秩和行列式的對數(shù)值, 后者對各種體協(xié)方差陣是否相等的統(tǒng) 計檢驗,由 F 值及其顯著水平,我們在 0.05 的顯著性水平下接受原假設(原假 設假定各總體協(xié)方差陣相等)EigenvaluesFunctionEigenvalue% of VarianceCumulative %Canonical Correlation160.267 a98.998.9.9922.678 a1.1100.0.636a. First 2 canonical discriminant fun
27、ctions were used in the analysis.第一判別函數(shù)解釋了 98.9%的方差,第二判別函數(shù)解釋了 1.1%的方差Wilks' LambdaTest of Function(s)Wilks' LambdaChi-squaredfSig.1 through 2.01044.01412.0002.5964.9195.426第一判別函數(shù)在 0.05的顯著性水平上是顯著的標準化的判別函數(shù)Standardized CanonicalDiscriminant FunctionCoefficientsFunction12X1-17.048-7.685X214.7109
28、.793X3-1.301-.513X46.403-.566X51.344.657X64.3111.813Canonical Discriminant FunctionCoefficientsFunction12X1-1.951-.879X21.7421.160X3-.927-.366X4.827-.073X5.102.050X61.661.698(Constant)-78.860-29.413Unstandardized coefficients非標準化的判別函數(shù)Y1=-78.860+-1.951 X1+1.742 X2+-0.927 X3+0.827 X4+0.102 X5+1.661 X6
29、 根據(jù)這個判別函數(shù)計算每個觀測的判別 Z 得分 后者是判別函數(shù)在各組的重心 各組的先驗概率yFunction121-2.6851.00229.523-.2543-6.838-.748Functions at Group CentroidsyPriorCases Used in AnalysisUnweightedWeighted1.33355.0002.33355.0003.33355.000Total1.0001515.000Prior Probabilities for GroupsUnstandardized canonical discriminant functions evalua
30、ted at group meansClassification Function Coefficientsy123X1-158.299-181.006-148.660X2166.206186.018156.942X3-97.779-108.631-93.291X459.02669.21755.718X511.52212.71011.009X6201.552220.946193.435(Constant)-5586.484-6553.476-5227.094Fisher's linear discriminant functions每組的費歇線性判別函數(shù)Y=1 這組F1= -5586.
31、484+-158.299 X1+166.206 X2+-97.779 X3+59.026 X4+11.522 X5+201.552 X6Y=2 這組F2=-6553.476+-181.006 X1+186.018 X2+-108.631 X3+69.217 X4+12.710+ X5220.946 X6Y=3 這組F3=-5227.094 +-148.660X1+156.942 X2+-93.291 X3+55.718 X4+11.009 X5+193.435 X6將觀測分到較大的函數(shù)值中帶判樣品 f1 f2 f3分別如下3902.3613612.1173997.6615563.0035478
32、.9575556.3037015.1927149.3516931.5745013.9214877.5445030.7341 號待判判為第三組2 號待判判為第一組3 號待判判為第二組4號待判判為第三組a,c Classification ResultsyPredicted Group MembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0bCross-validatedCount150052140532035%1100.0.0.0100.0220.080.0.0100
33、.0340.0.060.0100.0b. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.c. 80.0% of cross-validated grouped cases correctly classified.Predicted Group Membership 表示預設的所屬組關系 Original
34、表示原始數(shù)據(jù)的所屬組關系 Cross-validated 表示交叉驗證的所屬組關系第五章 主成分分析1. 主成分的基本思想是什么? 在對某一事物進行實證研究時,為更全面、準確地反映事物的特征及其發(fā) 展規(guī)律,往往考慮與其有關的多個指標, 在多元統(tǒng)計中也稱為變量。 一方避免遺 漏重要信息而考慮盡可能多的指標, 另一方面考慮指標的增多, 又難以避免信息 重疊。希望涉及的變量少,而得到的信息量有較多。主成分的基本思想是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原 來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。 研究某一問題涉及的眾多變量之間有 一定的相關性, 必然存在著起支配作用的共同因素。 通過對原始變量
35、相關矩陣或 協(xié)方差矩陣內(nèi)部結構關系的研究, 利用原始變量的線性組合形成幾個互相無關的 綜合指標(主成分)來代替原來的指標。 通常數(shù)學上的處理就是將原來 P個指標 作線性組合,作為新的綜合指標。最經(jīng)典的做法就是用 F1(選取的第一個線性 組合,即第一個綜合指標)的方差來表達,即 Var(F1)越大,表示 F1 包含的信息 越多。因此在所有的線性組合中選取的 F1 應該是方差最大的,故稱 F1 為第一 主成分。如果第一主成分不足以代表原來 P個指標的信息,再考慮選取 F2 即選 第二個線性組合,為了有效地反映原來信息, F1 已有的信息就不需要再出現(xiàn)在 F2 中,用數(shù)學語言表達就是要求 Cov(F
36、1, F2)=0,則稱 F2 為第二主成分,依此 類推可以構造出第三、第四, ,第 P 個主成分。2. 主成分在應用中的主要作用是什么? 作用:利用原始變量的線性組合形成幾個綜合指標(主成分) ,在保留原始 變量主要信息的前提下起到降維與簡化問題的作用, 使得在研究復雜問題時更容 易抓住主要矛盾。 通過主成分分析, 可以從事物之間錯綜復雜的關系中找出一些 主要成分, 從而能有效利用大量統(tǒng)計數(shù)據(jù)進行定量分析, 解釋變量之間的內(nèi)在關 系,得到對事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。 主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù),有時可通過因子負荷 aij 的結論, 弄清 X 變量間
37、的某些關系,多維數(shù)據(jù)的一種圖形表示方法,用主成分分析篩選 變量,可以用較少的計算量來選擇,獲得選擇最佳變量子集合的效果。3. 由協(xié)方差陣出發(fā)和由相關陣出發(fā)求主成分有什么不同?由協(xié)方差陣出發(fā)設隨即向量 X=(X1,X2,X3, Xp)'的協(xié)方差矩陣為 , 1 2 p為的特征值,1,2,p為矩陣 A 各特征值對應的標準正交特 征向量,則第 i 個主成分為 Yi= 1i*X1+ 2i*X2+ +pi*Xp,i=1,2, ,p 此時 VAR (Yi)= i ,(,), 我們把 X1,X2,X3, Xp 的協(xié)方差矩陣 的非零特征根 1 2 p> 0向量對應的標準化特征向量 1,2,p 分別
38、作為系數(shù)向量, Y1=1'*X, Y2=2'*X, , Yp=p'*X 分別稱為隨即向量 X 的第一主成分,第二主成 分第 p主成分。 Y 的分量 Y1,Y2, Yp依次是 X 的第一主成分、第 二主成分第 p主成分的充分必要條件是: (1)Y=P'*X ,即P為 p階正交陣, (2)Y的分量之間互不相關,即 D(Y)=diag( 1, 2, p),(3)Y 的 p個分 量是按方差由大到小排列,即 1 2 p。 由相關陣出發(fā)對原始變量 X 進行標準化, Z=( 1/2)-1*(X- ) cov(Z)=R 原始變量的相關矩陣實際上就是對原始變量標準化后的協(xié)方差矩陣
39、, 因此,有相 關矩陣求主成分的過程與主成分個數(shù)的確定準則實際上是與由協(xié)方差矩陣出發(fā) 求主成分的過程與主成分個數(shù)的確定準則相一致的。 ,ii 分別表示相關陣 R 的特 征根值與對應的標準正交特征向量,此時,求得的主成分與原始變量的關系式為: Yi= i '*Z= i '* (1/2)-1*(X- )在實際研究中 ,有時單個指標的方差對研究目的起關鍵作用 ,為了達到研究 目的,此時用協(xié)方差矩陣進行主成分分析恰到好處。 有些數(shù)據(jù)涉及到指標的不同 度量尺度使指標方差之間不具有可比性 ,對于這類數(shù)據(jù)用協(xié)方差矩陣進行主成分 分析也有不妥。 相關系數(shù)矩陣計算主成分其優(yōu)勢效應僅體現(xiàn)在相關性大
40、、 相關指 標數(shù)多的一類指標上。 避免單個指標方差對主成分分析產(chǎn)生的負面影響, 自然會 想到把單個指標的方差從協(xié)方差矩陣中剝離,而相關系數(shù)矩陣恰好能達到此目 的。第六章因子分析1.因子分析與主成分分析有什么本質(zhì)不同? ()因子分析把展示在我們面前的諸多變量看成由對每一個變量都有作用的 一些公共因子和一些僅對某一個變量有作用的特殊因子線性組合而成, 因此,我 們的目的就是要從數(shù)據(jù)中探查能對變量起解釋作用的公共因子和特殊因子, 以及 公共因子和特殊因子的線性組合, 主成分分析則簡單一些, 它只是從空間生成的 角度尋找能解釋諸多變量絕大部分變異扥機組彼此不相關的新變量 ()因子分析中, 把變量表示成
41、各因子的線性組合, 而主成分分析中, 把主成 分表示成各變量的線性組合()主成分分析中不需要有一些專門架設, 因子分析則需要一些假設, 因子分 析的假設包括, 各個因子之間不相關, 特殊因襲之間不相關, 公共因子和特殊因 子之間不相關()提取主因子的方法不僅有主成分法還有極大似然法等, 基于這些不同算法 得到的結果一般也不同,而主成分只能用主成分法提取()主成分分析中, 當給定的協(xié)方差矩陣或者相關矩陣的特征值唯一時, 主成 分一般是固定,而因子分析中,因子不是固定的,可以旋轉得到不同的因子。 ()在因子分析中, 因子個數(shù)需要分析者指定, 結果隨指定的因子數(shù)不同而不 同,主成分分析中,主成分的數(shù)
42、量是一定的,一般有幾個變量就有幾個主成分。 ()與主成分分析相比, 由于因子分析可以使用旋轉技術幫助解釋因子, 在解 釋方面更加有優(yōu)勢, 而如果想把現(xiàn)有的變量變成少數(shù)幾個新的變量來進行后續(xù)的 分析,則可以使用主成分分析。2.因子載荷 aij 的統(tǒng)計定義是什么?它在實際問題分析中的作用是什么? 因子載荷 aij 的統(tǒng)計定義,是原始變量 Xi 與公共因子 Fj的協(xié)方差, Xi與 Fj都是 均值為 0,方差為 1 的變量,因此 aij 同時也是 Xi 與的 Fj 相關系數(shù)。 g2j a12j a22j . a2pj ( j 1,2,.,m),則g2j 表示的是公共因子 Fj對于 X的每一分量 所提供
43、的方差的總和,稱為公共因子 Fj 對原始變量向量 X 的方差貢獻,是衡量 公共因子相對重要性的指標,計算出因子載荷矩陣 A 的所有 g2j ,并按照大小排 序,提出影響力大的公共因子。第八章典型相關分析.試述典型相關分析的統(tǒng)計思想及該方法在研究實際問題中的作用 典型相關分析研究兩組變量之間整體的線性相關關系, 它是將每一組變量作為一 個整體來分析研究而不是分析每一組變量內(nèi)部的各個變量, 所研究的兩組變量可 以是一組變量為自變量, 一組變量為因變量的情況, 兩組變量也可以處于同等地 位,但典型相關分析要求兩組變量都至少是間隔尺度的。 借助主成分分析的思想, 對每一組變量分別尋找線性組合, 使生成
44、的新的綜合變量能代表原始變量大部分 的信息,同時與由另一組變量生成的新的綜合變量的相關程度最大, 這樣一組新 的綜合變量稱為第一對典型相關變量,同樣的方法找到第二對,第三對 使 各隊典型相關變量之間互不相關, 典型相關變量之間的簡單相關系數(shù)稱為典型相 關系數(shù)。.典型相關分析中的冗余度有什么作用 在進行典型相關分析的時候, 需要了解典型變量的解釋比例, 從而定量測度典型 變量所包含的原始信息量的大小,此時就需要典型變量的冗余分析。冗余度 (Redundancy)分析結果,它列出各典型相關系數(shù)所能解釋原變量變異的比例,可 以用來輔助判斷需要保留多少個典型相關系數(shù)。.典型變量的解釋有什么具體方法,實
45、際意義是什么 主要使用以下三種方法 (1)典型權重 (標準化系數(shù)),(2)典型載荷 (結構系數(shù))(3)典型交叉載荷 平均解釋量是某一個典型因素與各觀察變量之典型因素結構系數(shù)的平方和, 再除以觀察變量的個數(shù)。 (結構系數(shù)平方和 /個數(shù))若 X、Y 變量的數(shù)目不同,則典型因 素對各自觀察變量的累積解釋量也會不同。結構系數(shù)大于等于 0.3就可以認為有意義;大于等于 0.5 就屬于高度相關,可以 依此來判定有意義的結構。交叉結構系數(shù)是指 X 變量與另一個典型因素 之間的相關系數(shù),或各 Y 變量與 另一側典型因素 間的相關系數(shù)。-2003.232.25-1006.112.7112.01附表 1. 邊遠及少數(shù)民族聚居區(qū)社會經(jīng)濟發(fā)展水平的指標數(shù)據(jù) .xls青海436740.9204714.4842.92樣本均值4208.7835.121965.8912.2127.79全國平均水平6212.0132.8729729.515.78樣本均值 -全國平均 (A)-2003.232.25-1006.112.7112.01Inter-Item Covariance Matrix人均 GDP( 元)三產(chǎn)比重( %)人均消費 (元)人口增長 (%)文盲半文盲( %)人均 GDP( 元)1020190.84582.46
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新型城鎮(zhèn)化內(nèi)外墻抹灰施工與配套服務合同4篇
- 2025年度雛雞養(yǎng)殖產(chǎn)業(yè)鏈產(chǎn)業(yè)鏈協(xié)同發(fā)展合作合同4篇
- 2025年度科技園區(qū)研發(fā)場地租賃及合作開發(fā)合同4篇
- 2024年度陜西省公共營養(yǎng)師之四級營養(yǎng)師練習題及答案
- 科技教育行業(yè)的前沿趨勢與展望
- 科技引領下的學校體育設施創(chuàng)新布局實踐
- 二零二五年度物流行業(yè)標準制定采購合同范本3篇
- 2025年度夜市攤位租賃與食品安全監(jiān)督合同4篇
- 二零二五年度櫥柜行業(yè)標準制定與實施服務合同4篇
- 2025年度個人與健身中心會員服務購買合同范本4篇
- 遼寧省撫順五十中學2024屆中考化學全真模擬試卷含解析
- 2024年湖南汽車工程職業(yè)學院單招職業(yè)技能測試題庫及答案解析
- 2024年中國科學技術大學少年創(chuàng)新班數(shù)學試題真題(答案詳解)
- 家長心理健康教育知識講座
- GB/T 292-2023滾動軸承角接觸球軸承外形尺寸
- 軍人結婚函調(diào)報告表
- 民用無人駕駛航空器實名制登記管理規(guī)定
- 北京地鐵6號線
- 航空油料計量統(tǒng)計員(初級)理論考試復習題庫大全-上(單選題匯總)
- 諒解書(標準樣本)
評論
0/150
提交評論