數(shù)據(jù)分析期末試題及答案_第1頁
數(shù)據(jù)分析期末試題及答案_第2頁
數(shù)據(jù)分析期末試題及答案_第3頁
數(shù)據(jù)分析期末試題及答案_第4頁
數(shù)據(jù)分析期末試題及答案_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)分析期末試題及答案

一、人口現(xiàn)狀.sav數(shù)據(jù)中是1992年亞洲各國家和地區(qū)平均壽命(y)、按購買力計

算的人均GDP(xl)、成人識字率(x2),一歲兒童疫苗接種率(x3)的數(shù)據(jù),試用多元

回歸分析的方法分析各國家和地區(qū)平均壽命與人均GDP、成人識字率、一歲兒童

疫苗接種率的關系。(25分)

解:

L通過分別繪制地區(qū)平均壽命(y)、按購買力計算的人均GDP(xl)、成人識字率僅2),

一歲兒童疫苗接種率(x3)之間散點圖初步分析他們之間的關系

上圖是以人均GDP(xl)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之間

沒有呈線性關系。嘗試多種模型后采用曲線估計,得出

表示地區(qū)平均壽命僅)與人均GDP(xl)的對數(shù)有線性關系

上圖是以成人識字率僅2)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之

間基本呈正線性關系。

上圖是以疫苗接種率僅3)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之

間沒有呈線性關系

抑-

aeo-

50-

-I'-

00200000.00400000.00600000.00800000.001000000.00

xxx3

上圖是以疫苗接種率僅3)的三次方(考)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,

由圖可知,他們之間呈正線性關系

所以可以采用如下的線性回歸方法分析。

2.線性回歸

先用強行進入的方式建立如下線性方程

設Y=BO+B1*(Xil)+B2*Xi2+B3*XJeii=l.2...24

其中£i(i=1.2……22)相互獨立,都服從正態(tài)分布N(0,o、2)且假設其等于

方差

模型匯總b

標準估計的誤

模型RR方調(diào)整R方差

1.9523.907.8913.332

a.預測變量:(常量),x3,xl,x2。

b.因變量:y

上表是線性回歸模型下的擬合優(yōu)度結(jié)果,由上表知,R值為0.952,大于0.8,表

示兩變量間有較強的線性關系。且表示平均壽命(y)的95.2%的信息能由人均

GDP(xl)、成人識字率(x2),一歲兒童疫苗接種率僅3)一起表示出來。

建立總體性的假設檢驗

提出假設檢驗HO:Pl=P2=P3=0,Hl,:其中至少有一個非零

得如下方差分析表

Ab

Anova

模型平方和df均方FSig.

1回歸1937.7043645.90158.190,oooa

殘差199.7961811.100

總計2137.50021

a.預測變量:(常量),x3,xl,x2。

b.因變量:y

上表是方差分析SAS輸出結(jié)果。由表知,采用的是F分布,F(xiàn)=58.190,對應的檢驗

概率P值是0.000.,小于顯著性水平0.05,拒絕原假設,表示總體性假設檢驗通過

了,平均壽命(y)與人均GDP(xl)、成人識字率僅2),一歲兒童疫苗接種率僅3)之間

有高度顯著的的線性回歸關系。

做獨立性的假設檢驗得出參數(shù)估計表

系數(shù)a

非標準化系數(shù)標準系數(shù)

模型B標準誤差試用版tSig.

1(常量)33.0143.13710.523.000

X1.072.015.4044.865.000

x2.169.040.4314.245.000

x3.178.049.3393.654.002

a.因變量:y

上表是有關參數(shù)估計的信息,同樣是上面的檢驗假設,HO:B1=82=B3=0:Hl:

Bl、82、B3不全為零

由表知,

&1=33.014,31=0.072,82=0.169,33=0.178,以B1=0.072為例,表示當成人

識字率僅2),一歲兒童疫苗接種率僅3)不變時,,人均GDP(xl)每增加一個單位,平

均壽命(y)就增加0.072個單位。

基于以上結(jié)果得出年平均壽命僅)與人均GDP(xl)、成人識字率(x2),一歲兒童疫苗

接種率僅3)之間有顯著性的線性關系有回歸方程

Y=33.014+0.072*Xl+0.169*X2+0.178*X3

B1、B2、B3對應得p值分別為0.000,0.000,0.002,對應的概率p值都小于0.05,

表示它們的單獨性的假設檢驗沒通過,即該模型是最優(yōu)的,所以不用采用逐步回

歸的方式分析。

對原始數(shù)據(jù)進行殘差分析

未標準化的殘差RES」

-7.53964

-3.57019

-3.42221

-2.89835

-2.30455

-2.17263

-2.05862

-1.37142

-1.17048

43890

17260

03190

.94655

1.42896

1.61252

1.61590

2.10139

3.01856

3.02571

3.49808

4.60737

5.29645

以XI為橫軸,RES_1為縱軸畫出如下散點圖

由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸

模型比較合理。

同理可以得出RES_1與X2、X3的散點圖,

-

rns

p

-

s

e

a

p

o

z

-

p

E」

p

u

e

ut;

n

由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸

模型比較合理。

由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸

模型比較合理。

誤差項的正態(tài)性檢驗

數(shù)據(jù)(RES_1)標準化殘差ZRES_1

Zscore:UnstandardizedResidual的正態(tài)Q-Q圖

2'

觀測值

由圖可以看出,散點圖近似的在一條直線附近,則可以認為數(shù)據(jù)來自正太分布總

二、診斷發(fā)現(xiàn)運營不良的金融企業(yè)是審計核查的一項重要功能,審計核查的分類

失敗會導致災難性的后果。下表列出了66家公司的部分運營財務比率,其中33

家在2年后破產(chǎn)Y=0,另外33家在同期保持償付能力(Y=l)。請用變量Xl(未分配

利潤/總資產(chǎn)),X2(稅前利潤/總資產(chǎn))和X3(銷售額/總資產(chǎn))擬合一個Logistic回歸

模型,并根據(jù)模型給出實際意義的分析,數(shù)據(jù)見財務比率.sav(25分)。

解:

整體性的假設檢驗

提出假設性檢驗

H0:回歸系數(shù)笈=0(i=l,2,3),H1:不都為0

建立logistic模型:

由(^^)=鳳+川X1+應X2+^X3

分類表也

已預測

Y

已觀測01百分比校正

步驟0Y0033.0

1033100.0

總計百分比50.0

a.模型中包括常量。

b.切割值為.500

上表顯示了logistic分析的初始階段方程中只有常數(shù)項時的錯判矩陣,其中33家在

2年后破產(chǎn)(y=0),但模型均預測為錯誤,正確率為0%,另外33家在同期保持償

付能力(Y=l),正確率為100%,所以模型總的預測正確率為50%。

不在方程中的變量

得分dfSig.

步驟0變量XI31.6211.000

X219.3581.000

X32.8091.094

總統(tǒng)計量37.6233.000

由上表得知,如果變量Xl(未分配利潤/總資產(chǎn)),X2(稅前利潤/總資產(chǎn))進入方程,

概率p值都為0.000,小于顯著性水平0.05,本應該是拒絕原假設,XLX2是可以

進入方程的。而X3(銷售額/總資產(chǎn))進入方程,概率p值為0.094,大于顯著性水平

0.05,本應該是接受原假設,X3(銷售額/總資產(chǎn))是不能進入方程的,但這里的解

釋變量的篩選策略為enter,是強行進入方程的。

用強行全部進入

模型匯總

步驟-2對數(shù)似然值Cox&SnellR方NagelkerkeR方

15.791a.727.969

a.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)

13處終止。

-2倍的對數(shù)似然函數(shù)值越小表示模型的擬合優(yōu)度越高,這里的值是5.791,比較小,

表示模型的擬合優(yōu)度還可以,而且NagelkerkeR方為0.969,與0相比還是比較大的,

所以擬合度比較高

分類表a

己觀測已預測

Y

01百分比校正

步驟1Y032197.0

113297.0

總計百分比97.0

a.切割值為.500

上表顯示了logistic分析的初始階段方程中只有常數(shù)項時的錯判矩陣,其中33家在

2年后破產(chǎn)(y=0),但模型預測出了32家,正確率為97%,另外33家在同期保持

償付能力(Y=l),模型預測出了32家,正確率為97%,所以模型總的預測正確率為

97%,較之前的有很大的提高。

方程中的變量

BS.E,WalsdfSig.Exp(B)

步驟laXI.336.3091.1781.2781.399

X2.180.1072.8521.0911.198

X35.1605.200.9851.321174.235

常量-10.33411.147.8591.354.000

a.在步驟1中輸入的變量:X1,X2,X3.

上表給出了方程中變量的系數(shù)。由表得出

鳳=-10.3344=0.336區(qū)=0.18Q質(zhì)=5.160

Zd為例,表示控制變量X2(稅前利潤/總資產(chǎn))和X3(銷售額/總資產(chǎn))不變,Xl(未分

配利潤/總資產(chǎn))每增加一個單位,ln(—^出一)增加0.336分單位

模型方程:

ln(加丫=0})=-10.334-0.336X1+0.180X2+4.160X3

1-P{Y=O}

Logistic回歸方程:

exp)10.3340.336Xk0.180X2+4.160X3

―_l+exptrl0.3340.336Xk0.180X2+4.160X3

由表得知,XI到X3對應的概率p值都大于0.05,接受原假設,表示XI到X3對Y

都沒有顯著性影響。所以用下述方法改進。

用向前步進(wald)

模型匯總

步驟-2對數(shù)似然值Cox&SnellR方NagelkerkeR方

115.8033.682.910

29.472b.711.949

a.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)9

處終止。

b.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)

10處終止。

-2倍的對數(shù)似然函數(shù)值越小表示模型的擬合優(yōu)度越高,這里的值是9.472,比之前

的5.791要大,表示擬合優(yōu)度降低,表示用向前的方法并沒有比進入的方法好

分類表a

已預測

已觀測Y百分比校正

01

步驟1Y031293.9

113297.0

總計百分比95.5

步驟2Y032197.0

113297.0

總計百分比97.0

a.切割值為.500

而且從上表知道總的預測百分比為97%,沒有變化,所以這一步較之前的強行進入的方法

沒什么優(yōu)化,也就是沒什么必要用向前的方法做。

所以有最優(yōu)的一個Logistic回歸模型為

模型方程:

ln(-P{y二°匚)=-10.334-0.336X1+0.180X2+4.160X3

l-p{Y=0}

Logistic回歸方程:

_exp)10.3340.336Xk0.180X2+4.160X3

―-l+exp(?10.3340.336Xk0.18CX2+4.160X3

三、為了研究幾個省市的科技創(chuàng)新力問題,現(xiàn)在取了2005年8個省得15個科技

指標數(shù)據(jù),試用因子分析方法來分析一個省得科技創(chuàng)新能力主要受到哪些潛在因

素的影響。數(shù)據(jù)見8個省市的科技指標數(shù)據(jù).sav,其中各個指標的解釋如下:(25

分)

XI:每百萬人科技活動人員數(shù)(人/萬人)

X2:從事科技活動人員中科學技術、工程師所占比重(%)

X3:R&D人員占科技胡哦哦的呢人員的比重(%)

X4:大專以上學歷人口數(shù)占總?cè)丝跀?shù)的比例(%)

X5:地方財政科技撥款占地方財政支出的比重(%)

X6:R&D經(jīng)費占GDP比重(%)

X7:R&D經(jīng)費中擠出研究所占比例(%)

X8:人均GDP(元/人)

X9:高科技產(chǎn)品出口額占商品出口額的比重(%)

X10:規(guī)模以上產(chǎn)業(yè)增加值中高技術產(chǎn)業(yè)份額(%)

XII:萬名科技人員被國際三大檢索工具收錄的論文數(shù)(篇/百萬人)

X12:每百萬人口發(fā)明專利的授權量(件/百萬人)

X13:發(fā)明專利申請授權量占專利申請授權量的比重(%)

X14:萬人技術市場成交合同金額(萬元/萬人)

X15:財政性教育經(jīng)費支出占GDP比重(%)

解:

解釋的總方差

初始特征值a提取平方和載入

成份合計方差的%累積%合計方差的%累積%

原始11.427E899.63699.6361.427E899.63699.636

2517846.046.36299.997

33265.489.002100.000

4201.762.000100.000

5121.0668.453E-5100.000

634.0782.379E-5100.000

78.1795.711E-6100.000

83.101E-112.165E-17100.000

91.520E-121.061E-18100.000

101.033E-147.210E-21100.000

118.393E-165.860E-22100.000

12-6.843E-17-4.778E-23100.000

13-7.700E-15-5.377E-21100.000

14-1.363E-13-9.514E-20100.000

15-6.538E-12-4.565E-18100.000

重新標度11.427E899.63699.6368.38855.92155.921

2517846.046.36299.997

33265.489.002100.000

4201.762.000100.000

5121.0668.453E-5100.000

634.0782.379E-5100.000

78.1795.711E-6100.000

83.101E-112.165E-17100.000

91.520E-121.061E-18100.000

101.033E-147.210E-21100.000

118.393E-165.860E-22100.000

12-6.843E-17-4.778E-23100.000

13-7.700E-15-5.377E-21100.000

14-1.363E-13-9.514E-20100.000

15-6.538E-12-4.565E-18100.000

提取方法:主成份分析。

a.分析協(xié)方差矩陣時,初始特征值在整個原始解和重標刻度解中均相同。

上表是用協(xié)方差矩陣分析法分析出的總方差的結(jié)果,由上表知道,初始特征值間

所占的比例相差很大,取值范圍差異大,所以不大適合做協(xié)方差的矩陣分析。所

以應該采用相關矩陣的方法分析如下:

相關矩陣,

XIX2X3X4X5X6X7X8X9X10XIIX12X13X14X15

相XI1.00.857.893.943.373.988.988.756.172.520.914.989.883.984.806

關0

X2.8571.00.863.882.573.841.844.776.209.586.839.912.722.905.769

0

X3.893.8631.00.830.191.930.922.525.210.613.720.888.834.907.629

0

X4.943.882.8301.00.441.911.948.874.318.563.976.971.903.934.883

0

X5.373.573.191.4411.00.278.300.713.245.397.545.440.081.392.592

0

X6.988.841.930.911.2781.00.985.665.125.480.867.969.881.983.759

0

X7.988.844.922.948.300.9851.00.737.275.590.895.978.905.972.767

0

X8.756.776.525.874.713.665.7371.00.458.574.916.818.626.752.802

0

X9.172.209.210.318.245.125.275.4581.00.811.256.213.141.160.069

0

XI.520.586.613.563.397.480.590.574.8111.00.454.548.432.498.312

00

XI.914.839.720.976.545.867.895.916.256.4541.00.943.830.905.925

10

XI.989.912.888.971.440.969.978.818.213.548.9431.00.876.988.834

20

XI.883.722.834.903.081.881.905.626.141.432.830.8761.00.838.781

30

XI.984.905.907.934.392.983.972.752.160.498.905,988.8381.00.778

40

XI.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.00

50

a.此矩陣不是正定矩陣。

上表是15個變量間的相關系數(shù)矩陣,可以看出相關系數(shù)都比較高,比如XI

(每百萬人科技活動人員數(shù)(人/萬人))和X2(從事科技活動人員中科學技術、

工程師所占比重(%))的相關系數(shù)0.859,接近1,呈較強的的線性相關性,

所以能夠從中提取公因子,適合做因子分析

解釋的總方差

初始特征值提取平方和載入

成份合計方差的%累積%合計方差的%累積%

111.13674.23774.23711.13674.23774.237

21.70611.37185.6081.70611.37185.608

31.2478.31693.9241.2478.31693.924

4.5083.38697.310

5.2051.36598.675

6.125.83299.507

7.074.493100.000

83.059E-162.040E-15100.000

91.532E-161.021E-15100.000

101.188E-167.923E-16100.000

114.537E-173.025E-16100.000

12-2.301E-16-1.534E-15100.000

13-3.671E-16-2.448E-15100.000

14-4.891E-16-3.261E-15100.000

15-8.277E-16-5.518E-15100.000

提取方法:主成份分析。

由表可知,前兩個因子的特征根值很高,累積方差貢獻率為分別為85,608(>=80%

即可),對解釋原有變量的貢獻很大,第3個以后的因子特征根值都很小,對解

釋原有變量的貢獻很校,可以忽略,因此提取第一和第二個因子比較合適,基本

能表達所有信息。有特征值%=11.1364=1.706

成份矩陣a

成份

12

XI.973-.158

X2.919.036

X3.883-.161

X4.985-.004

X5.482.497

X6.947-.242

X7.972-.108

X8.849340

X9.300.834

X10.611.637

XII.955-.001

X12.992-.091

X13.876-.282

X14.968-.156

X15.859-.092

提取方法:主成份。

3.已提取了2個成份。

上表是因子載荷矩陣A

以Xl,X5,X10為例,有因子分析模型

Xi=0.973F1-0.158^+^';

=0.482K+0.497工+對

X10=0.611+0.637^+^;

因為X5,和用。,變量在6,尸2上都有較大的相差不大的載荷,幾乎都受它們

的共同影響,因子間的差異性沒有表示出來,不方便進行因子命名,所以要進

行正交旋轉(zhuǎn)(拉大因子間的差異性)

成份轉(zhuǎn)換矩陣

成份12

1.926.379

2-.379.926

提取方法:主成份。

旋轉(zhuǎn)法:具有Kaiser標準化的

正交旋轉(zhuǎn)法。

0.9260.379

對A做方差最大的正交旋轉(zhuǎn),得到正交旋轉(zhuǎn)矩陣「=[-0.3790.9261

旋轉(zhuǎn)成份矩陣a

成份

12

XI.960.223

X2.837381

X3.878.185

X4.913.370

X5.258.642

X6.968.135

X7.940.268

X8.657.636

X9-.038.885

X10.325.821

XII.884.361

X12.952.292

X13.918.071

X14.955.222

X15.830.240

提取方法:主成份。

旋轉(zhuǎn)法:具有Kaiser標準化的

正交旋轉(zhuǎn)法。

a.旋轉(zhuǎn)在3次迭代后收斂。

上表為旋轉(zhuǎn)后的因子載荷矩陣

以X1,X5,X10為例,有因子分析模型

X:=0.960Fi-0.223^+^;

居+J;

X5=0.258K+0.642

Xi。=0.325/+0.821鳥+%;

在第一公因子K對應的列中,正載荷主要是

其載荷分別是,所以可視為

X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,0.960.......K

高科技因子;

在第二公共因子K對應的列中,正載荷主要是,X5,X10其載荷是0.642,0.821,

所以外可視為非該科技因子;

有公共因子E,尸2的得分矩陣如下:

F1的得分:

-0.90012

-0.79770

-0.47026

-0.45750

-0.00373

0.12888

0.25514

2.24528

得分越高表示科技越高

F2的得分

-1.31413

-1.28805

-0.53602

-0.02641

0.33279

0.39734

1.00045

1.43403

得分越低表示分高科技成分越高

四、湖南省某白酒廠開發(fā)了一種新的白酒,想在本省上市,考慮到公司的現(xiàn)狀:

生產(chǎn)能力小,營銷實力不強,在全省范圍內(nèi)沒有系統(tǒng)的營銷網(wǎng)絡。公司收集了某

年度湖南省各地區(qū)的經(jīng)濟發(fā)展和消費水平指標,并選取了與白酒消費相關的6

個代表性指標,即xl:總?cè)丝冢ㄈf人),x2:人均國民生產(chǎn)總值,x3:職工年平均

工資(元),X4:平均每人每年現(xiàn)金收入(元),x5:平均每人每年消費性支出(元),

x6:平均每人每年儲蓄(元)。具體數(shù)據(jù)見消費情況數(shù)據(jù),sav,試通過聚類分析的方

法,根據(jù)該廠的特點選擇營銷區(qū)域。(25分)

解:采用譜系聚類

用組間連接的方法表示類間距

用平方euclidean距離表示類內(nèi)距

聚類表

群集組合首次出現(xiàn)階群集

階群集1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論