多元統(tǒng)計復習題題干_第1頁
多元統(tǒng)計復習題題干_第2頁
多元統(tǒng)計復習題題干_第3頁
多元統(tǒng)計復習題題干_第4頁
多元統(tǒng)計復習題題干_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、因子分析復習題1. 試述因子分析與主成分分析的聯(lián)系與區(qū)別。區(qū)別主成分分析:以原變量的線性組合將原變量組合成少數(shù)幾個主成分。因子分析:將原變量分解成幾個公因子的線性組合,從而更好地理解原變量的內(nèi)在關(guān)系。兩者的分析重點不一致 C=AX主成分為原始變量線性組合,重點在綜合原始變量信息。 X=LF+e原始變量為公因子與特殊因子線性組合,公因子重點反映支配原始變量的不可觀測的潛在因素。聯(lián)系主成分分析:數(shù)據(jù)降維(多項變少項)因子分析是通過主成分推導而來。兩者的分析重點不一致 C=AX主成分為原始變量線性組合,重點在綜合原始變量信息。 X=LF+e原始變量為公因子與特殊因子線性組合,公因子重點反映支配原始變

2、量的不可觀測的潛在因素。2. 因子分析主要可應用于哪些方面?因子分析:將原變量分解成幾個公因子的線性組合,從而更好地理解原變量的內(nèi)在關(guān)系。用途:心理學、社會學和經(jīng)濟學。作用:分類、從顯在變量里探索不可直接觀察的公共因子3. 簡述因子模型中載荷矩陣的統(tǒng)計意義。4. 在進行因子分析時,為什么要進行因子旋轉(zhuǎn)?正交旋轉(zhuǎn)(最大方差因子旋轉(zhuǎn))的基本思路是什么?因子旋轉(zhuǎn) 使得每一個變量在某一個因子上負荷盡量大而在其他因子上負荷盡量小varimax! 所有因子保持不相關(guān)互相垂直 旋轉(zhuǎn)后共性方差不變5. 設(shè)某客觀現(xiàn)象可用X=(X1,X2,X3)來描述, 在因子分析時,從約相關(guān)陣出發(fā)計算出特征值為1=1.754,

3、2=1,3=0.255. 由于1+2/(1+2+3)85%,所以找前兩個特征值所對應的公共因子即可, 又知1,2對應的正則化特征向量分別為(0.707,-0.316,0.632)及(0,0.899,0.4470),要求:(1)計算因子載荷矩陣A,并建立因子模型。(2)計算共同度hi2(i=1,2,3)。(3)計算第一公因子對X 的“貢獻”。6.評價我國35個中心城市的綜合發(fā)展水平,選取反映城市綜合發(fā)展水平的12個指標如下:非農(nóng)業(yè)人口數(shù)(萬人)、工業(yè)總產(chǎn)值(萬元)、貨運總量(萬噸)、批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)(萬人)、地方政府預算內(nèi)收入(萬元)、城鄉(xiāng)居民年底儲蓄余額(萬元)、在崗職工人數(shù)(萬人)

4、、在崗職工工資總額(萬元)、人均居住面積(平方米)、每萬人擁有公共汽車數(shù)(輛)、人均擁有鋪裝道路面積(平方米)、人均公共綠地面積(平方米)。下面基于相關(guān)矩陣對所得數(shù)據(jù)進行因子分析,結(jié)果如下。表1 Descriptive StatisticsMeanStd. Deviation非農(nóng)業(yè)人口數(shù)(萬人)308.3489219.83902工業(yè)總產(chǎn)值(萬元)16696857.142919893326.55344貨運總量(萬噸)14748.768012724.72601批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)(萬人)11.715721.31643地方政府預算內(nèi)收入(萬元)1217117.28571739133.06001

5、城鄉(xiāng)居民年底儲蓄余額(萬元)12872780.400014217851.30101在崗職工人數(shù)(萬人)100.153780.80586在崗職工工資總額(萬元)1872194.11432146354.32611人均居住面積(平方米)17.08571.91544每萬人擁有公共汽車數(shù)(輛)13.392618.09189人均擁有鋪裝道路面積(平方米)9.11347.20129人均公共綠地面積(平方米)37.778342.98659表2 KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.723Bartle

6、tt's Test of SphericityApprox. Chi-Square678.796df66Sig.000表3 Rotated Component MatrixComponent123非農(nóng)業(yè)人口數(shù)(萬人).929-.183.039工業(yè)總產(chǎn)值(萬元).806.309.344貨運總量(萬噸).870-.147.253批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)(萬人).791.091-.437地方政府預算內(nèi)收入(萬元).934.194.155城鄉(xiāng)居民年底儲蓄余額(萬元).970.174-.053在崗職工人數(shù)(萬人).947.030-.191在崗職工工資總額(萬元).952.199-.155人均居

7、住面積(平方米).010.205.840每萬人擁有公共汽車數(shù)(輛).034.914.175人均擁有鋪裝道路面積(平方米).068.921.259人均公共綠地面積(平方米).092.809-.106求:1、 寫出正交因子模型;2、根據(jù)上述運算結(jié)果,試填寫下表(3分)3、解釋共同度及累積貢獻率的含義,并計算前三個公因子的累積貢獻率;4、請說明表2的作用,并對結(jié)果做出評價;5、請解釋三個旋轉(zhuǎn)公因子的含義。判別分析1、 試述判別分析的實質(zhì)。判別分析是用于判別樣品所屬類型的一種統(tǒng)計分析方法, 是在已知歷史上的某些方法已把研究對象分成若干類的情況下,根據(jù)判別函數(shù)對未知所屬類別的事物進行分類的一種分析方法。

8、2、 簡述貝葉斯判別法的基本思想和方法?;舅枷耄ㄥe分率*損失)假定:g個總體服從多元正態(tài)分布。 錯分概率:j類個體被分到i類記為P(i,j), 損失:錯分造成的損失C(ij)。方法:(g個類別,p個指標) Bayes判別準則:平均而言,總的錯分損失最小。3、 簡述費希爾判別法的基本思想和方法?;舅枷耄海ㄊ菇M間方差比組內(nèi)方差最大化)即重疊部分最小方法:兩類組間判別:多類組間判別找一個方向(變量的線性組合),使得多組個體在此方向上投影之間的重疊部分盡可能少。 變量數(shù)目g個,可以有g(shù)-1個判別函數(shù) 閾值:根據(jù)專業(yè)知識確定 與兩組判別相比,多組之間的判別常常效率不高。4、 試析貝葉斯判別法和費希爾

9、判別法的異同。Fisher 判別的分數(shù)是盡可能拉開各組個體間的相對距離,貝葉斯判別是比較屬于各類的概率,按照最大的概率來做判斷。對于兩類間判別,費雪判別和貝葉斯判別是等價的,兩個貝葉斯分類函數(shù)之差與得費雪判別函數(shù)相當。5、 收集了22例某病患者的三個指標(X1,X2,X3)的資料列于下表,其中前期患者(A)類12例,晚期患者(B)類10例。試作判別分析。(1) 計算變量的類均數(shù)及類間均值差Dj,計算結(jié)果列于表2。表2 變量的均數(shù)及類間均值差(2) 計算合并協(xié)方差矩陣:6、 觀察131例糖尿病患者,要求其患眼無其他明顯眼前段疾患, 眼底無明顯其他視網(wǎng)膜 疾病和視神經(jīng)、葡萄膜等疾患,測定了他們的以

10、上各指標值,并根據(jù)統(tǒng)一標準診斷其疾患類型,記分類指標名為group。(表中僅列出前5例)。試以此為訓練樣本, 僅取age,vision,at,bv和qpv 5項指標, 求分類函數(shù), 并根據(jù)王××的信息: 38歲, 視力1.0, 視網(wǎng)膜電圖at=14.25, bv=383.39, qpv=43.18判斷其視網(wǎng)膜病變屬于哪一型。131例糖尿病患者各指標實測記錄(前5例)解 假定樣本系從總體中隨機抽取,則樣本中三種疾患類型的樣本量可近似地反映先驗概率, 利用SAS的Discrim過程可得分類函數(shù)以王××的觀察值代入分類函數(shù), 得Y1=-181.447+0.47

11、3×38+60.369×1.0+17.708×14.25 +0.048×383.39+0.364×43.18=183.36同樣可算得: Y2180.58, Y3179.66其中最大者為Y1, 故判斷為輕度病變。由上例見, Y1, Y2, Y3的數(shù)值相差不多,單純憑分類函數(shù)值的大小作決策有時易出偏差。這時, 分別估計該個體屬于各總體的概率卻能客觀地反映該個體的各種可能歸屬, 而避免武斷。令Y*=180, 從而有類似地, 可得 P(Y2X1,X2,X5)0.0571 P(Y3X1,X2,X5)0.0227 由此可見王××為輕度病

12、變的概率為0.9202,因此把他判斷為輕度病變可靠性較大。7、上機 聚類分析1、 判別分析和聚類分析有何區(qū)別?區(qū)別:判別分析:必須事先知道需要判別的類型和數(shù)目,并且要有一批來自已知類型的樣品(訓練樣本),才能建立判別式(判別函數(shù)),然后對新樣品進行判別歸類(帶有“預測”的意義)。聚類分析:一批給定樣品劃分的類型和數(shù)目事先都不知道,完全根據(jù)一批樣品的數(shù)據(jù)特征用某種方法對樣品進行合理的分類,使得同一類的事物比較接近,把不相似的事物分在不同類中(只是描述性的統(tǒng)計)。聯(lián)系:聚類分析和判別分析有相似之處,即兩者都是研究分類問題;在實際中兩者往往結(jié)合起來使用,樣品聚類是進行判別分析之前的必要工作,根據(jù)樣品

13、聚類的結(jié)果進行判別分析。 2、 試述系統(tǒng)聚類的基本思想。首先,將n個樣品看成n類(一類包含一個樣品),然后將性質(zhì)接近的兩類合并成一個新類,得到n-1類,再從中找出最接近的兩類加以合并變成n-2類,如此下去,最后所有的樣品均在一類,將上述并類過程化成一張圖(聚類圖)便可決定分多少類,每類各有哪些樣品。3、 在進行系統(tǒng)聚類時,不同類間距離計算方法有何區(qū)別?最近距離:類別Gq的每一個體與類別Gp 的每一個體都有歐式距離,將其中最短的距離定義為兩個類別間的距離。Gq和Gp間距離=點2和點4間距離最遠距離:將其中最長的距離定義為兩個類別間的距離 Gq和Gp間距離=點2和點3間距離類平均距離:它等于類Gp

14、與類Gq中任意兩個樣品距離的平均,式中的L和K分別為Gp和Gq中的樣品數(shù)。該準則下類的合并過程在下圖中概要說明。重心法(centroid method) 將兩個類別的中心或均數(shù)間距離定義為兩類別的距離。先求出各類的重心點,以重心點的距離作為類間相似性的測度。要求樣品間距離為歐氏距離平方。4、 試述K均值法與系統(tǒng)聚類有何區(qū)別?K均值聚類:事先確定分為K類,然后隨機分為K類,計算每一類的均值,再計算某個變量到K個類別的歐式距離,比較歐式距離大小,若前小于后,則不用重新分類,若后小于前,則將這個變量歸為后一類,重新計算均值,和另一個變量到k個類的歐式距離,反復循環(huán)。系統(tǒng)聚類:根據(jù)標準化歐式距離,先找出距離最小的兩個變量,然后再根據(jù)不同的距離計算方法得出不同的分類。5、 兩個例題各樣品到類均值的距離主成分分析1、 試述主成分分析的基本思想。 2、 主成分分析的作用體現(xiàn)在何處?主成分有助于重新組織原變量,高度相關(guān)的變量往往會構(gòu)成同一個主成分,不同主成分之間不相關(guān)。 將主成分作為自變量,就沒有自變量之間相關(guān)的問題了。綜合評價,得到主成分的表達式并計算得分,畫圖。市場研究定內(nèi)類分析問題得分排名3、 簡述主成分分析中累積貢獻率的具體含義。P個原變量,則有p個特征值 得到p個向量,每個均為(ai1,ai2,aip) 把1改為i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論