R語言統(tǒng)計(jì)分析作業(yè)_第1頁
R語言統(tǒng)計(jì)分析作業(yè)_第2頁
R語言統(tǒng)計(jì)分析作業(yè)_第3頁
R語言統(tǒng)計(jì)分析作業(yè)_第4頁
R語言統(tǒng)計(jì)分析作業(yè)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、T<- read.table("G:/學(xué)習(xí)文件夾/R語言/R語言作業(yè)/5/住房狀況調(diào)查.csv",header=TRUE,sep=",")1、對變量計(jì)劃戶型制作一張頻數(shù)分布表,并繪制相應(yīng)的圖形,寫出相應(yīng)的 結(jié)論(請寫出R代碼)table(T$計(jì)劃戶型)更大戶型 兩室兩廳2161131D4四室兩廳單工亞室三療承工四室三廳忍工 1326兩室一廳三室兩廳三室三廳三室一廳 四室二廳浜衛(wèi)2D3223520237一室一廳 122、請對變量計(jì)劃面積選擇正確的圖形進(jìn)行描述,寫出相應(yīng)的結(jié)論(請寫出 R代碼);hist(T$計(jì)戈ij面積,col = "lig

2、htgreen")痛 R Graphic; Device 2 (WnVE)Histogram of計(jì)劃面積Q O -i rt局 苔氏 0A0uaJnb9ILJ_05010015020025。300T£計(jì)劃面和3、對變量計(jì)劃面積,計(jì)算樣本數(shù)、平均值、中位數(shù)、修剪均值、樣本標(biāo)準(zhǔn) 差、偏態(tài)系數(shù)、峰態(tài)系數(shù)、最大值、最小值、上下四分位數(shù),并對計(jì)劃面積的 分布特征進(jìn)行綜合分析(請寫出 R代碼);t<-na.omit(T$計(jì)劃面積)summary(t)library("psych")describe(t)根據(jù)第二題的直方圖顯示,計(jì)劃面積的數(shù)據(jù)分布是非對稱分布,其

3、中位數(shù)為100,平均數(shù)為101.6,上四分位數(shù)為80.0,下四分位數(shù)為120.0,分位數(shù)之差是40.04、請選用合適的圖形來展示變量計(jì)劃戶型和變量從業(yè)狀況之間的關(guān)系,并 進(jìn)行獨(dú)立性檢驗(yàn);(請寫出R代碼);t<- na.omit(T)b<-data.frame(t$從業(yè)狀況,t$計(jì)劃戶型)a<-table(b)barplot(a,main="從業(yè)狀況與計(jì)劃戶型的關(guān)系",ylab="頻數(shù) ”,col=c(rainbow(6),beside=TRUE)summary(assocstats(a)H。:計(jì)劃戶型與從業(yè)狀況獨(dú)立,即兩個(gè)變量不關(guān)聯(lián);Hi:計(jì)劃戶

4、型與從業(yè)狀況不獨(dú)立,即兩個(gè)變量關(guān)聯(lián);Pearson卡方檢驗(yàn)結(jié)果表明,n=719, X-squared = 129.270, df = 50, p-value = 6.0761e-09 小于 0.05,拒絕原假設(shè),Cramer' s V = 0.19有 證據(jù)表明計(jì)劃戶型與從業(yè)狀況不獨(dú)立。5、請選用合適的圖形來展示變量戶口狀況和變量現(xiàn)住面積之間的關(guān)系;如 果想分析變量戶口狀況是否對變量現(xiàn)住面積產(chǎn)生顯著性影響,應(yīng)該采取哪種統(tǒng) 計(jì)分析方法?戶口狀況是否對變量現(xiàn)住面積產(chǎn)生顯著性影響?為什么?(請寫 出R代碼)c<-data.frame(T$P 口»犬況,T$現(xiàn)住面積)boxplo

5、t(T$T$戶口 狀況,data=c,ylab="現(xiàn)住面積",xlab="戶 口狀況”,varwidth=TRUE,col="red2")如果想分析變量 戶口狀況是否對變量現(xiàn)住面積產(chǎn)生顯著性影響:(1)首先,現(xiàn)住面積是大樣本數(shù)據(jù),檢驗(yàn)方差齊性時(shí)可以使用 Levene檢驗(yàn),分析本市戶口人民的現(xiàn)住面積與外地戶口人民的現(xiàn)住 面積之間的總體方差是否有顯著性差異。根據(jù)R輸出結(jié)果,F(xiàn) = 5.4041, p-value =0.02016, p-value小于0.05,拒絕原假設(shè);有證據(jù)表明本市 戶口人民的現(xiàn)住面積與外地戶口人民的現(xiàn)住面積之間的總體方差存 在

6、顯著差異。leveneTest(T$!住面積 T$戶 口狀況,data=T)> libraryt7,car")載人程輯包工 *car,The following object is rra.3Jeed frort package:psych* : Logit> Iss亡現(xiàn)住面積工£戶口狀況t daca-T)> leveneTest ITS現(xiàn)住面積=工$戶口狀況, da七事=1)Levene1 5 Test far Homogeneity of Variance (center = iredlan) Df F value Pr(>F) group 1

7、5.041 0.02016 * 2991Signif* codes: 0 ,*/ 0*001 1*r 0.01 '*r Q*Q5 、, 0.1 1 1> I(2)本研究使用了獨(dú)立樣本t檢驗(yàn)方法,分析本地戶口人民的 現(xiàn)住面積和外地戶口人民的現(xiàn)住面積之間是否存在顯著差異。t.test(T$®l住面積 T$戶 口狀況,data=T)> 3g六現(xiàn)住面枳戶口狀況,data=T)Welch Two Sanfle Latestdata: T$現(xiàn)住面積byT小戶口狀況 t = 3.3136, df = 182.43/ p-value - 0*001111 alteinative

8、hypothesis: true difference in rr.eans is not equal to 0 95 percent confidence interval:3.106539 12.251296sartple escimates imean in group 本市戶口 raean in group 外地戶口63,1551155.47619> IcohensD現(xiàn)住面積 戶 口狀況,data=T,method="unequal")> shunsD (現(xiàn)住面積戶data=Tf Tnethod-="uneqiJal")1 0.275

9、5663 由于 t=3.3136, d=0.2785663, df =182.43, p 值=0.001111, p值小于0.05,所以拒絕原假設(shè)。有證據(jù)表明本地戶口人民的現(xiàn)住面積和外地戶口人民的現(xiàn)住面積之間存在顯著差異。但本案例的效應(yīng)不大。6、如果想分析變量文化程度是否對變量家庭收入產(chǎn)生顯著性影響,應(yīng)該采 取哪種統(tǒng)計(jì)分析方法?文化程度是否對變量家庭收入產(chǎn)生顯著性影響?為什么?(請寫出R代碼)attach(T)shapiro.test康庭收入文化程度="初中及以下")shapiro.test康庭收入文化程度="大學(xué)(專、本科)")shapiro.test

10、康庭收入文化程度="高中(中專)")shapiro.test康庭收入文化程度="研究生及以上")原假設(shè):文化程度為“初中及以下”時(shí)的家庭收入來自于正態(tài)總體;備擇假設(shè):文化程度為“初中及以下”時(shí)的家庭收入不來自于正 態(tài)總體。原假設(shè):文化程度為“大學(xué)(專、本科)”時(shí)的家庭收入自于正 態(tài)總體;備擇假設(shè):文化程度為“大學(xué)(專、本科)”時(shí)的家庭收入 不來自于正態(tài)總體。原假設(shè):文化程度為“高中(中專)”時(shí)的家庭收入來自于正態(tài) 總體;備擇假設(shè):文化程度為“高中(中專)”時(shí)的家庭收入不來自 于正態(tài)總體。原假設(shè):文化程度為“研究生及以上”時(shí)的家庭收入來自于正態(tài) 總體;備擇

11、假設(shè):文化程度為“研究生及以上”時(shí)的家庭收入不來自 于正態(tài)總體。> . te3t1豪庭收入:文彳七程專="初中及以下"Shapiro-Wilk normality testdata :家庭收入文化程度="初中及以下丁W = 0.75083, p-vdlae < 2 . 2e-16> m三己皿二 . tEmt【家庭收入:文化程考="大學(xué)(專、本科)1)Shapiro-Wilk normality testdata :家庭收入文化程度="大學(xué)f專、本科)W = 0.57B33, p-valae < 2 .2e-16>

12、二二丑二二.匚已3t1家庭收入:文化程專=N高中中專)寸)Shapiro-Wilk normality testdata :家庭收入文化程度="高中(中專)"W = 0.812 66, p-vdlae < 2 . 2e-16> 3?.apiro . tEmt(家庭收入:文化程宣="研究巨及以上1V )Shspiro-Wilk norir.dlity testdata :家庭收入文化程度="研究生及以上W = 0.55615. p-valae = 5.617e-09根據(jù)輸出結(jié)果,n1=805, n2=896, n3=1258, n4=34,各組

13、的p值 均小于0.05,拒絕原假設(shè),有證據(jù)表明各組數(shù)據(jù)不服從正態(tài)分布。describe.by(家庭收入,文化程度)對不同教育水平的家庭收入進(jìn)行Shapiro-Wilk檢驗(yàn),根據(jù)R輸出結(jié)果,所有的p-value都小于0.05,拒絕原假設(shè),證據(jù)表明不同教育水平的家庭收入不服從正態(tài)分布。該樣本雖為大樣本,但為高度偏態(tài)分布(|sk|>0.5)。> tUGCM%力索史收入F文化程童)Dtscrlfiilve s&atLsisies by 療上白國 group:初中及鼠下vats 力 由2出affAdlaA T.ijtntt:d ffAd min. ttAx 上a白。e akew ku

14、ftosis stXI 1 305 1321G.SE 9963.7fl 1DDOO 11CDZ. 9B 5930.4 12DO Le-+«5 BBEQO 3 LB.QB 351.19gzoupi大孝堂、本科viarsnmeansd indj.-aritrjjmuedud minnax 工地口g akew Icurtcslsse黃工 1孑4口5*寫 】。號15,工8MQQ*口 NQ8目,.:410375,3 7QQDMS。*口 孑4&。1 0 5 ,孑1 9-7專與肆,"?gtmrp: *中中專)viarsm.eaxsdmediaD&rxmiLedad nti

15、nitjjc xang-e a kev kurt-DsasseXI 1 USS155J7B<fl1G2D1,5J12000H0H.235t30,1 15QQ13DOOD 12&500抬3”g£0up<:研優(yōu)生及以上vars 3i neanjd ludian Trurmsd nm-d. nxn g* zange 9tew 加工m scKI 1 辦 95617, 65 34翎。死 27500 2已3里,時(shí) 11119 1Q0OO Z1Q5 190go 3,3712r49 3居053Mamziui nessagie 3 describe.b;11 is depEtcBi

16、ized. Ple&se use the deasribeBy I unction > I本案例不滿足單因素方差分析的正態(tài)性條件。leveneTest康庭收入文化程度,data=T)>工”mn皂工總與tU家庭收入文化程度.dag=T)Levene * s Test f cr Hqieggeneity of Variance (center = rr.ediazi)Df F value Fr(>F>group 322.90H 1.16Be-14 *29fl9Signif, cades: Q '*' 0.001 、0.01 '*f 0,05

17、.' 0.1 ' 1 > I總體方差齊性可以使用levene檢驗(yàn),根據(jù)levene檢驗(yàn),F(xiàn)值為22.908, p值為1.168e-14,拒絕原假設(shè),有證據(jù)證明不同教育水平的 家庭收入的總體方差不相等。因此本案例不符合單因素方差分析的應(yīng)用條件,故采用非參數(shù)中的 Kruskal-Wallis 檢驗(yàn)。> ktusm.te與t 1家庭收入z文化程度,data=T)KxusJcal-Wfillis ranlc sum testdata:家蛭收入by文化程度Kruskal-Wallis chi-squared =q52.可3,df = 3f p-value < 2.2e-

18、l原假設(shè):不同文化程度的人民其家庭收入的中位數(shù)相等;備擇假設(shè):不同文化程度人民的家庭收入的中位數(shù)不全相等;檢驗(yàn)統(tǒng)計(jì)量Chi-Square為452.43, p值非常小,小于0.05,拒絕原假設(shè),有證據(jù)證明不同文化程度人民的家庭收入的中位數(shù)不全相等。7、請選用合適的圖形來展示變量家庭收入和變量計(jì)劃面積之間的關(guān)系,寫 出相應(yīng)的結(jié)論(請寫出R代碼);plot(T$家庭收入,T$計(jì)劃面積)Q5WQ0lOCXMft15COWJ2WMW2SXM0THEM18、如果建 立計(jì)劃面積關(guān) 于家庭收入,常住人口,現(xiàn)住面積的多元線性 回歸模型。(請寫出R代碼)(1)寫出估計(jì)的多元線性回歸方程,并解釋回歸系數(shù)的實(shí)際意義;

19、(2)計(jì)算判定系數(shù),并解釋其意義;計(jì)算估計(jì)標(biāo)準(zhǔn)誤差,并解釋其意 義。(3)對回歸模型進(jìn)行整體檢驗(yàn)(a=0.05)。(4)檢驗(yàn)各回歸系數(shù)是否顯著(a=0.05)。(5)多元線性回歸分析的基本假定是什么?本案例是否滿足?。(6)根據(jù)你的判斷,模型中是否存在多重共線性?d<-lm(計(jì)劃面積家庭收入+常住人口 +現(xiàn)住面積,data=T)summary(d)summaryCall:Im (formula =計(jì)劃面積、家庭收人+常住人口 +現(xiàn)住面積,data = T)Residuals:MinIQ Median3Q Max-73.124 -15.972-1,64212.32S 1S6,614Coef

20、flaienta:Estimate 5td. Eirar t value Pr(> c|)(Intercept家庭收入 常住人口 現(xiàn)住面積84.00165370.000318-4,33872060.45277303*4042052O.OOOOSL30.69031730.04073002i.676< 2e-16 *« £3 4.B9e-ll * -5<435 7.22e-08 11.116 < 2e-16 *Signif. codes:o 0.0010.01 *' 0.0S0+1 ' ' 1Re si dual standard

21、 &rrar: 25.95 an S28 degrees of f reedonc (2161 ohservacionfl deleted due to irisaingness)Multiple R-3quared:0.2315. Adjusted R-squarea;0.2289F-scaristic: B3.21 on 3 and 826 DFf p-value: < 2,2e-161 )根據(jù)輸出結(jié)果 :回歸方程為y=84.0016537+0.0003418x1-4.8387206x2+0.4527730x3x1 的回歸系數(shù)為0.0003418,其含義是:當(dāng)x2、 x3 保

22、持不變時(shí),Xi(家庭收入)每增加1元,因變量y (計(jì)劃面積)平均tf加0.0003418 平米。x2 的回歸系數(shù)為-4.8387206,其含義是:當(dāng)x1 、 x3 保持不變時(shí),X2(常住人口)每增加1人,因變量y (計(jì)劃面積)平均減少4.8387206 平米。x3 的回歸系數(shù)為0.4527730,其含義是:當(dāng)x1、 x2 保持不變時(shí),x3(現(xiàn)住面積)每增加1平米,因變量y(計(jì)劃面積)平均tf加0.4527730 平米。(2)根據(jù)輸出結(jié)果:修正的判定系數(shù)為0.2289。修正的R2 值=22.89%,說明模型與數(shù)據(jù)擬合的不夠好,在計(jì)劃面積的變動中,有22.89%是由家庭收入、常住人口和現(xiàn)住面積的多

23、元線性回歸方程所解釋的。本回歸方程擬合的不好,需要增加自變量。標(biāo)準(zhǔn)回歸誤差是25.95,表示用估計(jì)的回歸方程預(yù)測y 時(shí),預(yù)測誤差的相對大小為25.95。(3)整體性檢驗(yàn):H。: § =份=自=0;H。:并隊(duì)、費(fèi)至少有一個(gè)不等于0。根據(jù)輸出結(jié)果,通過F 檢驗(yàn)得出 F 值為 83.21, P 值非常小,拒絕原假設(shè)。(4)顯著性檢驗(yàn):使用t檢驗(yàn)的方法,H。: 8 = 0; H1: 8#0。對于自變量Xi (家庭收入):t值為6.663, P值小于0.05,拒絕 原假設(shè)。自顯著。對于自變量X2 (常住人口): t值為-5.435, P值小于0.05,拒絕 原假設(shè)。也顯著。對于自變量X3 (現(xiàn)住面積):t值為11.116, P值小于0.05,拒絕 原假設(shè)。自顯著。(5)基本假定:1、誤差項(xiàng)e是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立,即2一 N (0,-)2、獨(dú)立性3、線性4、同方差性g<-lm(計(jì)劃面積家庭收入+常住人口 +現(xiàn)住面積,data=T)par(mfrow=c(2,2)piot(g)ftesMJuBisw&FrlledNoinial Q-uh<- residuals(g)shapiro.test(h)> h<- residuals(g) > shapiro.ces

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論