




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)分析期末試題及答案
一、人口現(xiàn)狀.sav數(shù)據(jù)中是1992年亞洲各國家和地區(qū)平均壽命(y)、按購買力計
算的人均GDP(xl)、成人識字率(x2),一歲兒童疫苗接種率(x3)的數(shù)據(jù),試用多元
回歸分析的方法分析各國家和地區(qū)平均壽命與人均GDP、成人識字率、一歲兒童
疫苗接種率的關系。(25分)
解:
L通過分別繪制地區(qū)平均壽命(y)、按購買力計算的人均GDP(xl)、成人識字率僅2),
一歲兒童疫苗接種率(x3)之間散點圖初步分析他們之間的關系
上圖是以人均GDP(xl)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之間
沒有呈線性關系。嘗試多種模型后采用曲線估計,得出
表示地區(qū)平均壽命僅)與人均GDP(xl)的對數(shù)有線性關系
上圖是以成人識字率僅2)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之
間基本呈正線性關系。
上圖是以疫苗接種率僅3)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,由圖可知,他們之
間沒有呈線性關系
抑-
aeo-
50-
-I'-
00200000.00400000.00600000.00800000.001000000.00
xxx3
上圖是以疫苗接種率僅3)的三次方(考)為橫軸,地區(qū)平均壽命(y)為縱軸的散點圖,
由圖可知,他們之間呈正線性關系
所以可以采用如下的線性回歸方法分析。
2.線性回歸
先用強行進入的方式建立如下線性方程
設Y=BO+B1*(Xil)+B2*Xi2+B3*XJeii=l.2...24
其中£i(i=1.2……22)相互獨立,都服從正態(tài)分布N(0,o、2)且假設其等于
方差
模型匯總b
標準估計的誤
模型RR方調(diào)整R方差
1.9523.907.8913.332
a.預測變量:(常量),x3,xl,x2。
b.因變量:y
上表是線性回歸模型下的擬合優(yōu)度結(jié)果,由上表知,R值為0.952,大于0.8,表
示兩變量間有較強的線性關系。且表示平均壽命(y)的95.2%的信息能由人均
GDP(xl)、成人識字率(x2),一歲兒童疫苗接種率僅3)一起表示出來。
建立總體性的假設檢驗
提出假設檢驗HO:Pl=P2=P3=0,Hl,:其中至少有一個非零
得如下方差分析表
Ab
Anova
模型平方和df均方FSig.
1回歸1937.7043645.90158.190,oooa
殘差199.7961811.100
總計2137.50021
a.預測變量:(常量),x3,xl,x2。
b.因變量:y
上表是方差分析SAS輸出結(jié)果。由表知,采用的是F分布,F(xiàn)=58.190,對應的檢驗
概率P值是0.000.,小于顯著性水平0.05,拒絕原假設,表示總體性假設檢驗通過
了,平均壽命(y)與人均GDP(xl)、成人識字率僅2),一歲兒童疫苗接種率僅3)之間
有高度顯著的的線性回歸關系。
做獨立性的假設檢驗得出參數(shù)估計表
系數(shù)a
非標準化系數(shù)標準系數(shù)
模型B標準誤差試用版tSig.
1(常量)33.0143.13710.523.000
X1.072.015.4044.865.000
x2.169.040.4314.245.000
x3.178.049.3393.654.002
a.因變量:y
上表是有關參數(shù)估計的信息,同樣是上面的檢驗假設,HO:B1=82=B3=0:Hl:
Bl、82、B3不全為零
由表知,
&1=33.014,31=0.072,82=0.169,33=0.178,以B1=0.072為例,表示當成人
識字率僅2),一歲兒童疫苗接種率僅3)不變時,,人均GDP(xl)每增加一個單位,平
均壽命(y)就增加0.072個單位。
基于以上結(jié)果得出年平均壽命僅)與人均GDP(xl)、成人識字率(x2),一歲兒童疫苗
接種率僅3)之間有顯著性的線性關系有回歸方程
Y=33.014+0.072*Xl+0.169*X2+0.178*X3
B1、B2、B3對應得p值分別為0.000,0.000,0.002,對應的概率p值都小于0.05,
表示它們的單獨性的假設檢驗沒通過,即該模型是最優(yōu)的,所以不用采用逐步回
歸的方式分析。
對原始數(shù)據(jù)進行殘差分析
未標準化的殘差RES」
-7.53964
-3.57019
-3.42221
-2.89835
-2.30455
-2.17263
-2.05862
-1.37142
-1.17048
43890
17260
03190
.94655
1.42896
1.61252
1.61590
2.10139
3.01856
3.02571
3.49808
4.60737
5.29645
以XI為橫軸,RES_1為縱軸畫出如下散點圖
由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸
模型比較合理。
同理可以得出RES_1與X2、X3的散點圖,
-
rns
p
-
s
e
a
p
o
z
-
p
E」
p
u
e
ut;
n
由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸
模型比較合理。
由上圖可以看出,該殘差圖中各點分布近似長條矩形,所以模型擬合較好,即該線性回歸
模型比較合理。
誤差項的正態(tài)性檢驗
數(shù)據(jù)(RES_1)標準化殘差ZRES_1
Zscore:UnstandardizedResidual的正態(tài)Q-Q圖
2'
期
望
需
值
觀測值
由圖可以看出,散點圖近似的在一條直線附近,則可以認為數(shù)據(jù)來自正太分布總
體
二、診斷發(fā)現(xiàn)運營不良的金融企業(yè)是審計核查的一項重要功能,審計核查的分類
失敗會導致災難性的后果。下表列出了66家公司的部分運營財務比率,其中33
家在2年后破產(chǎn)Y=0,另外33家在同期保持償付能力(Y=l)。請用變量Xl(未分配
利潤/總資產(chǎn)),X2(稅前利潤/總資產(chǎn))和X3(銷售額/總資產(chǎn))擬合一個Logistic回歸
模型,并根據(jù)模型給出實際意義的分析,數(shù)據(jù)見財務比率.sav(25分)。
解:
整體性的假設檢驗
提出假設性檢驗
H0:回歸系數(shù)笈=0(i=l,2,3),H1:不都為0
建立logistic模型:
由(^^)=鳳+川X1+應X2+^X3
分類表也
已預測
Y
已觀測01百分比校正
步驟0Y0033.0
1033100.0
總計百分比50.0
a.模型中包括常量。
b.切割值為.500
上表顯示了logistic分析的初始階段方程中只有常數(shù)項時的錯判矩陣,其中33家在
2年后破產(chǎn)(y=0),但模型均預測為錯誤,正確率為0%,另外33家在同期保持償
付能力(Y=l),正確率為100%,所以模型總的預測正確率為50%。
不在方程中的變量
得分dfSig.
步驟0變量XI31.6211.000
X219.3581.000
X32.8091.094
總統(tǒng)計量37.6233.000
由上表得知,如果變量Xl(未分配利潤/總資產(chǎn)),X2(稅前利潤/總資產(chǎn))進入方程,
概率p值都為0.000,小于顯著性水平0.05,本應該是拒絕原假設,XLX2是可以
進入方程的。而X3(銷售額/總資產(chǎn))進入方程,概率p值為0.094,大于顯著性水平
0.05,本應該是接受原假設,X3(銷售額/總資產(chǎn))是不能進入方程的,但這里的解
釋變量的篩選策略為enter,是強行進入方程的。
用強行全部進入
模型匯總
步驟-2對數(shù)似然值Cox&SnellR方NagelkerkeR方
15.791a.727.969
a.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)
13處終止。
-2倍的對數(shù)似然函數(shù)值越小表示模型的擬合優(yōu)度越高,這里的值是5.791,比較小,
表示模型的擬合優(yōu)度還可以,而且NagelkerkeR方為0.969,與0相比還是比較大的,
所以擬合度比較高
分類表a
己觀測已預測
Y
01百分比校正
步驟1Y032197.0
113297.0
總計百分比97.0
a.切割值為.500
上表顯示了logistic分析的初始階段方程中只有常數(shù)項時的錯判矩陣,其中33家在
2年后破產(chǎn)(y=0),但模型預測出了32家,正確率為97%,另外33家在同期保持
償付能力(Y=l),模型預測出了32家,正確率為97%,所以模型總的預測正確率為
97%,較之前的有很大的提高。
方程中的變量
BS.E,WalsdfSig.Exp(B)
步驟laXI.336.3091.1781.2781.399
X2.180.1072.8521.0911.198
X35.1605.200.9851.321174.235
常量-10.33411.147.8591.354.000
a.在步驟1中輸入的變量:X1,X2,X3.
上表給出了方程中變量的系數(shù)。由表得出
鳳=-10.3344=0.336區(qū)=0.18Q質(zhì)=5.160
Zd為例,表示控制變量X2(稅前利潤/總資產(chǎn))和X3(銷售額/總資產(chǎn))不變,Xl(未分
以
配利潤/總資產(chǎn))每增加一個單位,ln(—^出一)增加0.336分單位
模型方程:
ln(加丫=0})=-10.334-0.336X1+0.180X2+4.160X3
1-P{Y=O}
Logistic回歸方程:
exp)10.3340.336Xk0.180X2+4.160X3
―_l+exptrl0.3340.336Xk0.180X2+4.160X3
由表得知,XI到X3對應的概率p值都大于0.05,接受原假設,表示XI到X3對Y
都沒有顯著性影響。所以用下述方法改進。
用向前步進(wald)
模型匯總
步驟-2對數(shù)似然值Cox&SnellR方NagelkerkeR方
115.8033.682.910
29.472b.711.949
a.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)9
處終止。
b.因為參數(shù)估計的更改范圍小于.001,所以估計在迭代次數(shù)
10處終止。
-2倍的對數(shù)似然函數(shù)值越小表示模型的擬合優(yōu)度越高,這里的值是9.472,比之前
的5.791要大,表示擬合優(yōu)度降低,表示用向前的方法并沒有比進入的方法好
分類表a
已預測
已觀測Y百分比校正
01
步驟1Y031293.9
113297.0
總計百分比95.5
步驟2Y032197.0
113297.0
總計百分比97.0
a.切割值為.500
而且從上表知道總的預測百分比為97%,沒有變化,所以這一步較之前的強行進入的方法
沒什么優(yōu)化,也就是沒什么必要用向前的方法做。
所以有最優(yōu)的一個Logistic回歸模型為
模型方程:
ln(-P{y二°匚)=-10.334-0.336X1+0.180X2+4.160X3
l-p{Y=0}
Logistic回歸方程:
_exp)10.3340.336Xk0.180X2+4.160X3
―-l+exp(?10.3340.336Xk0.18CX2+4.160X3
三、為了研究幾個省市的科技創(chuàng)新力問題,現(xiàn)在取了2005年8個省得15個科技
指標數(shù)據(jù),試用因子分析方法來分析一個省得科技創(chuàng)新能力主要受到哪些潛在因
素的影響。數(shù)據(jù)見8個省市的科技指標數(shù)據(jù).sav,其中各個指標的解釋如下:(25
分)
XI:每百萬人科技活動人員數(shù)(人/萬人)
X2:從事科技活動人員中科學技術、工程師所占比重(%)
X3:R&D人員占科技胡哦哦的呢人員的比重(%)
X4:大專以上學歷人口數(shù)占總?cè)丝跀?shù)的比例(%)
X5:地方財政科技撥款占地方財政支出的比重(%)
X6:R&D經(jīng)費占GDP比重(%)
X7:R&D經(jīng)費中擠出研究所占比例(%)
X8:人均GDP(元/人)
X9:高科技產(chǎn)品出口額占商品出口額的比重(%)
X10:規(guī)模以上產(chǎn)業(yè)增加值中高技術產(chǎn)業(yè)份額(%)
XII:萬名科技人員被國際三大檢索工具收錄的論文數(shù)(篇/百萬人)
X12:每百萬人口發(fā)明專利的授權量(件/百萬人)
X13:發(fā)明專利申請授權量占專利申請授權量的比重(%)
X14:萬人技術市場成交合同金額(萬元/萬人)
X15:財政性教育經(jīng)費支出占GDP比重(%)
解:
解釋的總方差
初始特征值a提取平方和載入
成份合計方差的%累積%合計方差的%累積%
原始11.427E899.63699.6361.427E899.63699.636
2517846.046.36299.997
33265.489.002100.000
4201.762.000100.000
5121.0668.453E-5100.000
634.0782.379E-5100.000
78.1795.711E-6100.000
83.101E-112.165E-17100.000
91.520E-121.061E-18100.000
101.033E-147.210E-21100.000
118.393E-165.860E-22100.000
12-6.843E-17-4.778E-23100.000
13-7.700E-15-5.377E-21100.000
14-1.363E-13-9.514E-20100.000
15-6.538E-12-4.565E-18100.000
重新標度11.427E899.63699.6368.38855.92155.921
2517846.046.36299.997
33265.489.002100.000
4201.762.000100.000
5121.0668.453E-5100.000
634.0782.379E-5100.000
78.1795.711E-6100.000
83.101E-112.165E-17100.000
91.520E-121.061E-18100.000
101.033E-147.210E-21100.000
118.393E-165.860E-22100.000
12-6.843E-17-4.778E-23100.000
13-7.700E-15-5.377E-21100.000
14-1.363E-13-9.514E-20100.000
15-6.538E-12-4.565E-18100.000
提取方法:主成份分析。
a.分析協(xié)方差矩陣時,初始特征值在整個原始解和重標刻度解中均相同。
上表是用協(xié)方差矩陣分析法分析出的總方差的結(jié)果,由上表知道,初始特征值間
所占的比例相差很大,取值范圍差異大,所以不大適合做協(xié)方差的矩陣分析。所
以應該采用相關矩陣的方法分析如下:
相關矩陣,
XIX2X3X4X5X6X7X8X9X10XIIX12X13X14X15
相XI1.00.857.893.943.373.988.988.756.172.520.914.989.883.984.806
關0
X2.8571.00.863.882.573.841.844.776.209.586.839.912.722.905.769
0
X3.893.8631.00.830.191.930.922.525.210.613.720.888.834.907.629
0
X4.943.882.8301.00.441.911.948.874.318.563.976.971.903.934.883
0
X5.373.573.191.4411.00.278.300.713.245.397.545.440.081.392.592
0
X6.988.841.930.911.2781.00.985.665.125.480.867.969.881.983.759
0
X7.988.844.922.948.300.9851.00.737.275.590.895.978.905.972.767
0
X8.756.776.525.874.713.665.7371.00.458.574.916.818.626.752.802
0
X9.172.209.210.318.245.125.275.4581.00.811.256.213.141.160.069
0
XI.520.586.613.563.397.480.590.574.8111.00.454.548.432.498.312
00
XI.914.839.720.976.545.867.895.916.256.4541.00.943.830.905.925
10
XI.989.912.888.971.440.969.978.818.213.548.9431.00.876.988.834
20
XI.883.722.834.903.081.881.905.626.141.432.830.8761.00.838.781
30
XI.984.905.907.934.392.983.972.752.160.498.905,988.8381.00.778
40
XI.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.00
50
a.此矩陣不是正定矩陣。
上表是15個變量間的相關系數(shù)矩陣,可以看出相關系數(shù)都比較高,比如XI
(每百萬人科技活動人員數(shù)(人/萬人))和X2(從事科技活動人員中科學技術、
工程師所占比重(%))的相關系數(shù)0.859,接近1,呈較強的的線性相關性,
所以能夠從中提取公因子,適合做因子分析
解釋的總方差
初始特征值提取平方和載入
成份合計方差的%累積%合計方差的%累積%
111.13674.23774.23711.13674.23774.237
21.70611.37185.6081.70611.37185.608
31.2478.31693.9241.2478.31693.924
4.5083.38697.310
5.2051.36598.675
6.125.83299.507
7.074.493100.000
83.059E-162.040E-15100.000
91.532E-161.021E-15100.000
101.188E-167.923E-16100.000
114.537E-173.025E-16100.000
12-2.301E-16-1.534E-15100.000
13-3.671E-16-2.448E-15100.000
14-4.891E-16-3.261E-15100.000
15-8.277E-16-5.518E-15100.000
提取方法:主成份分析。
由表可知,前兩個因子的特征根值很高,累積方差貢獻率為分別為85,608(>=80%
即可),對解釋原有變量的貢獻很大,第3個以后的因子特征根值都很小,對解
釋原有變量的貢獻很校,可以忽略,因此提取第一和第二個因子比較合適,基本
能表達所有信息。有特征值%=11.1364=1.706
成份矩陣a
成份
12
XI.973-.158
X2.919.036
X3.883-.161
X4.985-.004
X5.482.497
X6.947-.242
X7.972-.108
X8.849340
X9.300.834
X10.611.637
XII.955-.001
X12.992-.091
X13.876-.282
X14.968-.156
X15.859-.092
提取方法:主成份。
3.已提取了2個成份。
上表是因子載荷矩陣A
以Xl,X5,X10為例,有因子分析模型
Xi=0.973F1-0.158^+^';
=0.482K+0.497工+對
X10=0.611+0.637^+^;
因為X5,和用。,變量在6,尸2上都有較大的相差不大的載荷,幾乎都受它們
的共同影響,因子間的差異性沒有表示出來,不方便進行因子命名,所以要進
行正交旋轉(zhuǎn)(拉大因子間的差異性)
成份轉(zhuǎn)換矩陣
成份12
1.926.379
2-.379.926
提取方法:主成份。
旋轉(zhuǎn)法:具有Kaiser標準化的
正交旋轉(zhuǎn)法。
0.9260.379
對A做方差最大的正交旋轉(zhuǎn),得到正交旋轉(zhuǎn)矩陣「=[-0.3790.9261
旋轉(zhuǎn)成份矩陣a
成份
12
XI.960.223
X2.837381
X3.878.185
X4.913.370
X5.258.642
X6.968.135
X7.940.268
X8.657.636
X9-.038.885
X10.325.821
XII.884.361
X12.952.292
X13.918.071
X14.955.222
X15.830.240
提取方法:主成份。
旋轉(zhuǎn)法:具有Kaiser標準化的
正交旋轉(zhuǎn)法。
a.旋轉(zhuǎn)在3次迭代后收斂。
上表為旋轉(zhuǎn)后的因子載荷矩陣
以X1,X5,X10為例,有因子分析模型
X:=0.960Fi-0.223^+^;
居+J;
X5=0.258K+0.642
Xi。=0.325/+0.821鳥+%;
在第一公因子K對應的列中,正載荷主要是
其載荷分別是,所以可視為
X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,0.960.......K
高科技因子;
在第二公共因子K對應的列中,正載荷主要是,X5,X10其載荷是0.642,0.821,
所以外可視為非該科技因子;
有公共因子E,尸2的得分矩陣如下:
F1的得分:
-0.90012
-0.79770
-0.47026
-0.45750
-0.00373
0.12888
0.25514
2.24528
得分越高表示科技越高
F2的得分
-1.31413
-1.28805
-0.53602
-0.02641
0.33279
0.39734
1.00045
1.43403
得分越低表示分高科技成分越高
四、湖南省某白酒廠開發(fā)了一種新的白酒,想在本省上市,考慮到公司的現(xiàn)狀:
生產(chǎn)能力小,營銷實力不強,在全省范圍內(nèi)沒有系統(tǒng)的營銷網(wǎng)絡。公司收集了某
年度湖南省各地區(qū)的經(jīng)濟發(fā)展和消費水平指標,并選取了與白酒消費相關的6
個代表性指標,即xl:總?cè)丝冢ㄈf人),x2:人均國民生產(chǎn)總值,x3:職工年平均
工資(元),X4:平均每人每年現(xiàn)金收入(元),x5:平均每人每年消費性支出(元),
x6:平均每人每年儲蓄(元)。具體數(shù)據(jù)見消費情況數(shù)據(jù),sav,試通過聚類分析的方
法,根據(jù)該廠的特點選擇營銷區(qū)域。(25分)
解:采用譜系聚類
用組間連接的方法表示類間距
用平方euclidean距離表示類內(nèi)距
聚類表
群集組合首次出現(xiàn)階群集
階群集1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村二手房購房合同范本
- 爺孫財產(chǎn)無償贈與合同
- 2025年建筑工程鋼筋采購合同范本
- 2025年寵物食品批發(fā)合同
- 2025年中國貨物買賣合同范本匯編
- 2025機械設備采購合同
- 畜牧良種繁殖生物技術在育種中的應用考核試卷
- 統(tǒng)編版語文六年級下冊《語文園地五》精美課件
- 礦物加工廠的生產(chǎn)調(diào)度與優(yōu)化-石墨滑石考核試卷
- 漆器工藝品在新時代的傳播途徑探索考核試卷
- 景區(qū)防火應急預案
- 壓瘡的預防措施及護理
- 小型雕刻機結(jié)構(gòu)設計說明書
- 國家開放大學《病理生理學》形考任務1-4參考答案
- 跨越道路和10kV線路跨越架專項施工方案
- 佳力圖M52空調(diào)操作手冊
- (修正版)壓實度自動計算表
- 平凡之路歌詞
- 教師資格證統(tǒng)計表
- 氣柜施工方案
- 《膀胱結(jié)石的護理》PPT課件.ppt
評論
0/150
提交評論