人大統(tǒng)計(jì)學(xué)考研歷年真題(03-09)參考答案_第1頁(yè)
人大統(tǒng)計(jì)學(xué)考研歷年真題(03-09)參考答案_第2頁(yè)
人大統(tǒng)計(jì)學(xué)考研歷年真題(03-09)參考答案_第3頁(yè)
人大統(tǒng)計(jì)學(xué)考研歷年真題(03-09)參考答案_第4頁(yè)
人大統(tǒng)計(jì)學(xué)考研歷年真題(03-09)參考答案_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)之都 COSCapital Of Statistics 人大統(tǒng)計(jì)學(xué)考研歷年真題參考解答精華版(03-09)2009年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、設(shè)第一、二個(gè)總體均值分別為與,樣本均值分別為與,樣本方差分別為與。1.構(gòu)造原假設(shè)和備擇假設(shè)2.構(gòu)造統(tǒng)計(jì)量。由于兩總體方差相等,且均為正態(tài)總體,則可以構(gòu)造如下檢驗(yàn)統(tǒng)計(jì)量:其中則3.計(jì)算臨界值。給定顯著性水平,如,計(jì)算臨界值,由于50>30,則。4.做出決策。由于,故拒絕原假設(shè),即認(rèn)為。二、1.對(duì)于回歸模型,的最小二乘估計(jì)為:。現(xiàn)在來(lái)看它的期望從上面可以看出,要使為無(wú)偏估計(jì),則必須滿足,所以只有當(dāng)時(shí),才為有偏估計(jì)。2.使的原因: 遺漏了關(guān)鍵

2、自變量,即全模型正確時(shí),而我們誤用了選模型。用選模型建模時(shí),使得誤差項(xiàng)中含有遺漏自變量的信息,從而期望不為零。證明過(guò)程如下證明:假設(shè)正確模型為,令,。而我們選用了模型來(lái)估計(jì),得到,則從上式可以看出是的有偏估計(jì)。加入了無(wú)關(guān)緊要的自變量,即選模型正確,而我們誤用了全模型,這樣會(huì)過(guò)度提取誤差項(xiàng)信息,使得估計(jì)量有偏。證明過(guò)程和上式差不多。這里省略。3.解決辦法:在選擇自變量時(shí),對(duì)因變量有重要影響的自變量盡量考慮全面,但自變量又不是越多越好,應(yīng)該去掉那些對(duì)因變量沒(méi)有影響或者影響很小的自變量。具體實(shí)施辦法有前進(jìn)法、后退法、逐步回歸法等。三、是平穩(wěn)過(guò)程,證明如下 即協(xié)方差函數(shù)只與有關(guān)。由平穩(wěn)過(guò)程的定義知,題

3、中所定義的過(guò)程為平穩(wěn)過(guò)程。四、1.先來(lái)估計(jì)各層總體的方差。在比例估計(jì)中定義則可得如下關(guān)于總體方差的式子 從上式我們可以估計(jì)出各層的方差(由于很大,故省略系數(shù)。)2.考慮樣本容量為600的簡(jiǎn)單隨機(jī)抽樣的方差。在簡(jiǎn)單隨機(jī)抽樣下總體比例的估計(jì)量為估計(jì)量方差的估計(jì)值為 3.考慮奈曼分配的情形。設(shè)抽取的樣本容量為,樣本量在各層的分配公式為代入數(shù)據(jù)得到則奈曼分配的估計(jì)量方差的估計(jì)為4.計(jì)算。要使奈曼分層抽樣與簡(jiǎn)單隨機(jī)抽樣有相同估計(jì)量方差,則必須滿足即 解得 五、略。六、1.來(lái)看的性質(zhì)由上可看出,該模型違背古典線性回歸模型的方差一致性假設(shè),殘差存在異方差性。2.加權(quán)最小二乘法。當(dāng)殘差存在異方差時(shí),如果還是用

4、最小二乘法估計(jì)參數(shù),會(huì)帶來(lái)嚴(yán)重的后果,如下參數(shù)估計(jì)值雖是無(wú)偏的,但不是最小方差線性無(wú)偏估計(jì);參數(shù)的顯著性檢驗(yàn)失效;回歸方差的應(yīng)用效果極不理想。鑒于此,我們必須尋求適當(dāng)?shù)姆椒▽?duì)原來(lái)的估計(jì)方法進(jìn)行變換,使變換后的估計(jì)方法滿足同方差性假設(shè)。由于異方差性導(dǎo)致離差平方和中的各項(xiàng)的比重不一樣,地位不平等,導(dǎo)致使用普通最小二乘法時(shí),回歸線就被拉向方差大的項(xiàng)。而在此題中,殘差系列與自變量觀測(cè)值的平方成正比,即因此當(dāng)我們?cè)谄椒胶透黜?xiàng)前面加入一個(gè)權(quán)重時(shí),各項(xiàng)的地位就平等了。從而克服了普通最小二乘法的弊端,這就是加權(quán)最小二乘法。它實(shí)施起來(lái)簡(jiǎn)單,原理清晰,是解決本題最好的方法。 七、1.數(shù)據(jù)分析。在本題中有三個(gè)影響因

5、素:時(shí)間、活動(dòng)空間、安眠藥。因變量是老鼠的活動(dòng)狀態(tài),可以把它看成數(shù)值型變量。要研究的是時(shí)間、活動(dòng)空間、安眠藥對(duì)老鼠活動(dòng)狀態(tài)是否有顯著的影響。我的分析思路是:首先,我把數(shù)據(jù)列成如下的表格吃藥后立即記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開(kāi)喂養(yǎng)吃藥后一小時(shí)記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開(kāi)喂養(yǎng)吃藥后兩小時(shí)記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開(kāi)喂養(yǎng)其中表示老鼠的編號(hào),每個(gè)組有10只老鼠。代表時(shí)間。其次,對(duì)每個(gè)表格的數(shù)據(jù)進(jìn)行有交互作用的方差分析,通過(guò)分析得到活動(dòng)空間、安眠藥是否對(duì)老鼠活動(dòng)狀態(tài)有顯著的影響,也可得到它們的交互作用是否對(duì)老鼠活動(dòng)狀態(tài)有顯著的影響。通過(guò)在三個(gè)觀測(cè)時(shí)間上各自的分析,最后得到安眠藥在那個(gè)時(shí)間點(diǎn)上的

6、效果最好。2.分析步驟。(和第八題的步驟差不多,這里就不寫了。)注:上述問(wèn)題屬于有重復(fù)測(cè)量的方差分析問(wèn)題,它與一般方差分析的不同之處在于它的時(shí)間觀測(cè)值數(shù)據(jù)之間不是獨(dú)立的、是相關(guān)的。這里將時(shí)間分開(kāi)來(lái)處理,似乎有所不妥,特此說(shuō)明,僅供參考。八、1.本題中職稱和性別都是屬性變量,滿意度是數(shù)值型變量,要研究屬性變量對(duì)數(shù)值型的影響,很自然會(huì)想到用方差分析方法,而本題中我們用無(wú)交互作用的雙因素方差分析方法。問(wèn)題提出:在分析一個(gè)屬性變量對(duì)一個(gè)數(shù)值型變量的影響時(shí),我們把屬性變量的各個(gè)水平各看成一個(gè)總體,然后比較這幾個(gè)總體的均值,看它們是否有顯著的差異,如果有顯著的差異,則說(shuō)明在各個(gè)水平下得到的數(shù)據(jù)之間是有差異

7、的,即認(rèn)為屬性變量對(duì)數(shù)值型變量有顯著影響。在本題中,比如我們要研究性別對(duì)滿意度有無(wú)顯著影響,我們的思路是把男、女兩個(gè)水平各看成一個(gè)總體,然后根據(jù)數(shù)據(jù)設(shè)計(jì)一種方法檢驗(yàn)它們的均值有無(wú)顯著的差異,如果沒(méi)有差異,那么我們認(rèn)為兩總體間的數(shù)據(jù)沒(méi)有什么區(qū)別,即滿意度差異不大,也即性別對(duì)滿意度沒(méi)有影響?;舅枷耄涸诜讲罘治鲋形覀兗俣ㄒ蛩氐母鱾€(gè)水平服從方差相等正態(tài)分布,這樣在每個(gè)總體下抽取樣本,由于抽樣的隨機(jī)性,會(huì)導(dǎo)致數(shù)據(jù)的不同,且各水平之間數(shù)據(jù)也會(huì)不同,我們現(xiàn)在要研究的各水平數(shù)據(jù)的差異性能完全由抽樣的隨機(jī)性解釋嗎?如果可以,我們認(rèn)為個(gè)水平均值沒(méi)有差異;否則,就有差異。具體的做法是,我們引進(jìn)組內(nèi)誤差和組間誤差兩

8、個(gè)概念,它們分別用組內(nèi)平方和與組間平方和詮釋。如果組間平方和與組內(nèi)平方和經(jīng)過(guò)平均后的數(shù)值相接近,則說(shuō)明數(shù)據(jù)間的差異是由抽樣的隨機(jī)性引起的,不存在系統(tǒng)性差異,即屬性變量對(duì)數(shù)值型變量沒(méi)有影響。分析步驟a.提出假設(shè)b.構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量總誤差平方和 行因素誤差平方和,均方誤差 列因素誤差平方和,均方誤差 剩余因素誤差平方和,均方誤差 F統(tǒng)計(jì)量 c.統(tǒng)計(jì)決策。給定顯著性水平,如果,則拒絕原假設(shè),說(shuō)明行因素對(duì)觀測(cè)值有顯著的影響;如果,則拒絕原假設(shè),說(shuō)明列因素對(duì)觀測(cè)值有顯著的影響。2.假定:各個(gè)水平對(duì)應(yīng)的總體都服從正態(tài)分布; 各個(gè)總體的方差相同; 各觀測(cè)值是獨(dú)立的; 性別和職稱對(duì)滿意度的影響是獨(dú)立的,即它們

9、之間沒(méi)有交互作用。2008年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、用中位數(shù)來(lái)描述家庭收入數(shù)據(jù)的集中趨勢(shì)有優(yōu)點(diǎn)亦有不足。 1.中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值,不受極端值影響,對(duì)偏斜程度較大的順序或數(shù)值型數(shù)據(jù)代表性較好,所以它能夠排除過(guò)高收入或過(guò)低收入帶來(lái)的不良影響。 2.作為描述數(shù)據(jù)集中趨勢(shì)的指標(biāo),中位數(shù)的應(yīng)用遠(yuǎn)不及平均值廣泛,中位數(shù)只是一組數(shù)據(jù)中的一個(gè)值,因而對(duì)整個(gè)香港家庭收入信息有較大浪費(fèi);而平均值能包含所有收入信息,而且具有優(yōu)良的數(shù)學(xué)性質(zhì),不過(guò)它易受極端值的影響,主要適用于測(cè)度偏斜度不大的數(shù)據(jù)。 3.用中位數(shù)作為判別低收入的指標(biāo),那么低收入的比例一直都是50%,這顯然與“比例在增

10、長(zhǎng)”相矛盾。二、方差分析表面上是檢驗(yàn)多總體均值是否相等,本質(zhì)上是研究變量間的關(guān)系,即通過(guò)各總體均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響,其中需要分析數(shù)據(jù)變異的來(lái)源,所以叫做方差分析。觀察到的數(shù)據(jù)一般是參差不齊的,我們用SST(總平方和)度量數(shù)據(jù)總的變異,將它分解為可追溯到來(lái)源的部分變異SSE(組內(nèi)平方和)與SSA(組間平方和)之和,若后者的平均MSA(組間均方)明顯比前者的平均MSE(組內(nèi)均方)大,就認(rèn)為自變量對(duì)因變量有顯著影響。在方差分析的基本假定下,上述問(wèn)題形式上就轉(zhuǎn)化為檢驗(yàn)各總體均值是否相等的問(wèn)題。所謂基本假定就是,各總體服從正態(tài)分布;各總體方差相同;各觀測(cè)值相互獨(dú)立。

11、三、有多種預(yù)測(cè)模型可供選擇:1.時(shí)間序列分解模型 加法模型:;乘法模型:;混合模型:,。其中為時(shí)刻的序列值,分別表示趨勢(shì)、季節(jié)性、隨機(jī)波動(dòng),下同。2.季節(jié)多元回歸模型 其中為0-1虛擬變量。3. ARIMA(p,q,d,T)模型(求和自回歸移動(dòng)平均模型) 符號(hào)說(shuō)明 a. 為一階延遲算子();b. 為自回歸系數(shù)多項(xiàng)式;c. 為移動(dòng)平均系數(shù)多項(xiàng)式;d. 為階差分算子,用于消除趨勢(shì)成分;e. 為步長(zhǎng)為周期的步差分算子,用于消除季節(jié)成分。四、(1)廠家從自身利益出發(fā),當(dāng)然希望每袋平均重量,這樣有利于提高產(chǎn)品銷量,于是可以把放在“被保護(hù)”的位置,而原假設(shè)正具有“被保護(hù)”的特性,于是可提出如下檢驗(yàn)假設(shè):

12、(2)從消費(fèi)者利益出發(fā),我們擔(dān)心每袋平均重量,如果要我們相信,那么廠家就得拿出充分的證據(jù)來(lái)證明,所以應(yīng)放在“不利”的位置,即放在備擇假設(shè)中,于是有: (3)在的顯著性水平和(2)中的檢驗(yàn)假設(shè)下,意味著是顯著不成立的,即拒絕原假設(shè),我們可以相信廠家所言。 值的含義是當(dāng)原假設(shè)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量取其實(shí)現(xiàn)值以及更極端值的概率,它是檢驗(yàn)的真實(shí)顯著性水平。 (4)這里的區(qū)間(241.1,257.5)是一個(gè)確定的區(qū)間,而食品的實(shí)際平均重量要么在其中,要么不在其中,無(wú)概率可言。該區(qū)間是95%的隨機(jī)置信區(qū)間的一個(gè)實(shí)現(xiàn),后者的意思是食品的實(shí)際平均重量以95%的概率落入其中。五、經(jīng)典多元線性回歸模型為 其中是維隨機(jī)

13、向量,是設(shè)計(jì)矩陣,是維系數(shù)向量,是維隨機(jī)誤差向量。 關(guān)于自變量的假設(shè)主要有:1.自變量都是確定性變量?;貧w分析中的自變量與因變量地位是不等的,其中后者是隨機(jī)的,這與相關(guān)分析二者都是隨機(jī)的不同。從而自變量與隨機(jī)誤差(以及因變量)也就不相關(guān),保證了回歸分析理論的順利進(jìn)行。2.自變量不存在多重共線性。這就要求設(shè)計(jì)矩陣列滿秩,進(jìn)而觀測(cè)次數(shù)(樣本量)必須大于自變量個(gè)數(shù)。該假設(shè)保證了的普通最小二乘估計(jì)可表示為 并且具有良好的數(shù)學(xué)性質(zhì),更方便了進(jìn)一步的假設(shè)檢驗(yàn)和回歸分析的實(shí)際操作與應(yīng)用。否則出現(xiàn)多重共線性,就會(huì)帶來(lái)上述諸多方面的麻煩。六、常見(jiàn)的(概率)抽樣方式有簡(jiǎn)單隨機(jī)抽樣、分層抽樣、整群抽樣、多階段抽樣和

14、系統(tǒng)抽樣,其中簡(jiǎn)單隨機(jī)抽樣是最基本的,是其他抽樣方式的基礎(chǔ)。所謂基本抽樣方式,我覺(jué)得以不同的標(biāo)準(zhǔn)或不同的思維角度會(huì)得出不同的分類方式,比如: 1.如果將整群抽樣(通常指一階)看作特殊的二階段抽樣(二階段抽樣比100%),則有四種基本抽樣方式。 2.如果又將分層抽樣視為特殊的二階段抽樣(一階段抽樣比100%),則有三種基本抽樣方式。 3.如果將系統(tǒng)抽樣看作特殊的分層抽樣(每層抽一個(gè)單元)或者特殊的整群抽樣(只抽一個(gè)群),則有四種基本抽樣方式。七、貝葉斯判別分析的原理是將貝葉斯統(tǒng)計(jì)思想用于判別分析。具體說(shuō)來(lái),設(shè)有個(gè)總體,分別有密度函數(shù)(一般假定總體都服從正態(tài)分布,協(xié)方差陣都相等,各均值有顯著差異)

15、,已知出現(xiàn)這個(gè)總體的先驗(yàn)概率為。我們希望給出一種判別法,也就是給出空間的一種劃分:,當(dāng)落入時(shí),將其判給,使得在該判別法下所帶來(lái)的平均損失達(dá)到最小。其中為樣品來(lái)自而被判給的錯(cuò)判損失,為錯(cuò)判概率。(1)與聚類分析數(shù)據(jù)都是未知類別的相比,貝葉斯判別分析的數(shù)據(jù)結(jié)構(gòu)中有一部分?jǐn)?shù)據(jù)是已知類別的,還有一部分屬于待判別歸類的未知類別的。(2)貝葉斯判別法最終是將樣品判給平均損失最小的總體。而其他判別法,比如距離判別法是將樣品判給相距最小的總體;逐步判別法是先選擇最優(yōu)判別變量,再結(jié)合其它判別法進(jìn)行判別等等。八、(1)建造大壩是一項(xiàng)復(fù)雜的工程,要綜合水利、建筑、地質(zhì)、數(shù)學(xué)、統(tǒng)計(jì)等多學(xué)科的知識(shí),要考慮方方面面的因素

16、。就其中壩高設(shè)計(jì)這一點(diǎn)來(lái)說(shuō),要考慮的主要因素我認(rèn)為有河流寬度與兩岸高度、周圍地質(zhì)構(gòu)造、河水各季度平均流量、地域旱澇特征,還有建壩的預(yù)估資金和時(shí)間等等。 (2)具體步驟如下: 制定計(jì)算壩高的詳細(xì)計(jì)劃;確定影響壩高的主要指標(biāo);充分收集整理指標(biāo)數(shù)據(jù);綜合利用各學(xué)科知識(shí)建立壩高數(shù)學(xué)模型;檢驗(yàn)優(yōu)化模型;利用模型計(jì)算壩高估計(jì)值,給出置信度和置信區(qū)間。流程圖如下:2007年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、(1)需假定總體是正態(tài)總體。 不能用數(shù)據(jù)證明。數(shù)據(jù)至多只能檢驗(yàn)該數(shù)據(jù)的分布是否接近正態(tài)分布,而不能從理論上證明或肯定它一定就來(lái)自正態(tài)分布總體,即正態(tài)性檢驗(yàn)不能提供不拒絕正態(tài)性原假設(shè)的結(jié)論。不是。該區(qū)間是確

17、定的區(qū)間,要么覆蓋真實(shí)總體均值,要么不覆蓋,沒(méi)有概率可言。它是置信度為95%的隨機(jī)置信區(qū)間的一個(gè)樣本實(shí)現(xiàn),后者才是以95%的概率覆蓋真實(shí)總體均值。 (2)需假定:總體服從正態(tài)分布;總體方差未知;樣本量較?。ㄒ话?0)。 不能?!敖邮芰慵僭O(shè)”的說(shuō)法是不妥的,否則就得負(fù)責(zé)任的給出犯第二類錯(cuò)誤的概率,而該檢驗(yàn)的備選假設(shè)是“總體均值>4.8克”,據(jù)此是無(wú)法算出此概率的。所以只能說(shuō),在顯著水平為0.05時(shí)利用該數(shù)據(jù)進(jìn)行檢驗(yàn)不足以拒絕零假設(shè),不拒絕不等同于接受。二、(1)不是。因?yàn)橹挥袉T工看到并愿意答復(fù)電子郵件時(shí)才有機(jī)會(huì)進(jìn)入樣本,所以每個(gè)員工入樣的概率并不一樣,這其實(shí)是一種非概率抽樣。 (2)不對(duì)。

18、不說(shuō)實(shí)話只是產(chǎn)生響應(yīng)誤差的原因之一,而被調(diào)查者與調(diào)查者兩方面的因素,都有可能導(dǎo)致響應(yīng)誤差。調(diào)查者不當(dāng)?shù)囊龑?dǎo)或者問(wèn)卷設(shè)計(jì)不科學(xué)或者被調(diào)查者知識(shí)的局限性,都可能使被調(diào)查者對(duì)要回答的問(wèn)題的理解產(chǎn)生偏差,這時(shí)候即使他(她)說(shuō)了“實(shí)話”,也會(huì)產(chǎn)生響應(yīng)誤差,因?yàn)檫@不是我們想要的“實(shí)話”。另外,拒絕回答也是一種重要原因。隨機(jī)誤差是不可以避免的,因?yàn)樗怯沙闃拥碾S機(jī)性造成的,是客觀的。 (3)整體來(lái)說(shuō)是不獨(dú)立的。因?yàn)橥粋€(gè)網(wǎng)絡(luò)公司員工加班時(shí)間一般是不獨(dú)立的,而不同網(wǎng)絡(luò)公司員工加班時(shí)間一般是獨(dú)立的。三、(1)令自駕車上班人數(shù)比例為,由于不能輕易否定原結(jié)論,則檢驗(yàn)假設(shè)為: (2)令樣本量為,其中駕車上班人數(shù)為,假

19、定服從二項(xiàng)分布,的樣本值為,則檢驗(yàn)統(tǒng)計(jì)量。 假定:大樣本();每人駕車上班與否相互獨(dú)立且服從同參數(shù)0-1分布。 (3)統(tǒng)計(jì)上顯著并不意味著實(shí)際上顯著,要具體問(wèn)題具體分析。比如,某箱牛奶經(jīng)統(tǒng)計(jì)檢驗(yàn),含三聚氰胺的概率顯著低于5%,但人們未必敢要這箱牛奶;統(tǒng)計(jì)上0.1與0.01有顯著差異的時(shí)候,實(shí)際中未必有多大意義。不過(guò)統(tǒng)計(jì)顯著與實(shí)際顯著很多時(shí)候是一致的。四、不負(fù)責(zé)。一個(gè)負(fù)責(zé)任的調(diào)查報(bào)告應(yīng)該給出較詳盡的內(nèi)容,主要如下:主題; 調(diào)查時(shí)間與地點(diǎn); 調(diào)查主題、客體、對(duì)象; 數(shù)據(jù)搜集方法、抽樣框、抽樣單元、樣本量、抽樣方法、估計(jì)方法;結(jié)論描述; 精度、質(zhì)量評(píng)估; 責(zé)任; 參考文獻(xiàn)。五、無(wú)道理。如果進(jìn)行第二次

20、主成分分析,那么它處理的變量是第一次主成分分析得到的互不相關(guān)的主成分,這樣得到的“新”的主成分其實(shí)跟第一次得到的主成分是完全一樣的,這可以通過(guò)矩陣運(yùn)算進(jìn)行驗(yàn)證,所以做的是無(wú)用功。變量之間相關(guān)系數(shù)多數(shù)較小(一般指<0.3)的數(shù)據(jù)不宜進(jìn)行主成分分析。不總是適用。要具體問(wèn)題具體分析,不能拘泥于某些固有的準(zhǔn)則,有時(shí)候還要根據(jù)問(wèn)題的實(shí)際意義或?qū)I(yè)理論知識(shí)來(lái)分析。六、不一定。只有當(dāng)所有對(duì)因變量產(chǎn)生影響的自變量都考慮進(jìn)來(lái)了而且不存在自相關(guān)、異方差等情況時(shí),才是隨機(jī)誤差。不需要。如果要研究最小二乘估計(jì)量性質(zhì)的話,就得假定滿足Guass-Markov條件;若還要進(jìn)行回歸系數(shù)區(qū)間估計(jì)和有關(guān)假設(shè)檢驗(yàn),則要進(jìn)一

21、步假定。七、(1)需要選擇度量樣品或指標(biāo)相似性的統(tǒng)計(jì)量,通常是距離(歐式距離、馬氏距離等)或相似系數(shù)(夾角余弦、相關(guān)系數(shù)等)。然后還要定義樣品間、類與類間的距離或相似系數(shù)。 (2)計(jì)算n個(gè)樣品兩兩間的距離;構(gòu)造n個(gè)類,每個(gè)類只包含1個(gè)樣品;合并距離最近的兩類為1新類;計(jì)算新類與其它類之間的距離;判斷類的個(gè)數(shù)是否為1,是則進(jìn)入第步,否則返回第步;畫譜系聚類圖;決定分類個(gè)數(shù)和各類成員。 (3)把樣品粗略分成K類;以上述K類的均值為種子,按照到它們距離的遠(yuǎn)近把所有點(diǎn)分成新的K類;反復(fù)進(jìn)行第步,直至收斂,得到最終的K類。八、(1)可能是前進(jìn)法或逐步回歸法。由表可知,選元進(jìn)行了兩步,第一步選了自變量Be

22、ginning Salary,第二步增加了另一自變量Employment Category。前進(jìn)法顯然解釋得通。至于逐步回歸法,因?yàn)橹贿M(jìn)行了兩步,而它的第二步不考慮剔除,故可以得到與前進(jìn)法完全一樣的結(jié)果。 (2)就是通常所說(shuō)的值,其計(jì)算公式為 這里的是原假設(shè)成立時(shí)服從分布的檢驗(yàn)統(tǒng)計(jì)量,是的樣本值,即表中的1622.118和997.312。 的意義就是,原假設(shè)為真時(shí),統(tǒng)計(jì)量取其樣本實(shí)現(xiàn)值以及更極端值的概率,是檢驗(yàn)的真實(shí)顯著性水平。 (3)假定:;原假設(shè)成立。 證明:可知。 由數(shù)理統(tǒng)計(jì)知識(shí),在假定成立時(shí),有 在假定成立時(shí),有 且與是相互獨(dú)立的,故 證畢。2006年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、

23、(1)圖略。 (2)第二種排隊(duì)方式平均等待時(shí)間 其中為第一種排隊(duì)方式平均等待時(shí)間。 第二種排隊(duì)方式的方差 其中為第一種排隊(duì)方式的方差。 可知第二種排隊(duì)方式比第一種排隊(duì)方式離散程度小。 (3)我會(huì)選擇第二種排隊(duì)方式。以為它的平均等待時(shí)間較短,等待時(shí)間也較穩(wěn)定。二、(1)樣本量為50,可認(rèn)為是大樣本,由中心極限定理知 其中為樣本均值,為總體均值,為樣本標(biāo)準(zhǔn)差。 由 得到95%的置信區(qū)間代入樣本數(shù)據(jù)計(jì)算得 所求置信區(qū)間為 即 (2)由表可知樣品中超過(guò)的食品包數(shù)占大多數(shù),廠家的觀點(diǎn)似乎有一定的可信度,故令檢驗(yàn)假設(shè)為 (3)P值是當(dāng)原假設(shè)為真時(shí),得到所觀測(cè)結(jié)果或更極端結(jié)果的概率,是檢驗(yàn)的真實(shí)顯著性水平,

24、可利用P值直接決策或?qū)值與顯著性水平進(jìn)行比較,不需要查表,具有可比性;統(tǒng)計(jì)量檢驗(yàn)是先確定一個(gè)顯著性水平從而獲得一個(gè)否定域,進(jìn)行決策的界限清晰但面臨的風(fēng)險(xiǎn)是籠統(tǒng)的,確定臨界值要查表,檢驗(yàn)統(tǒng)計(jì)量一般與自由度有關(guān)因而可比性較差。三、(1)這是無(wú)交互作用雙因素方差分析問(wèn)題,由行、列自由度可知行因素是供應(yīng)商,列因素是車速。 列的F檢驗(yàn)值97.68>F臨界值8.65,P值0.000002<<顯著性水平=0.01,故拒絕原假設(shè),即認(rèn)為車速對(duì)磨損程度有顯著影響。 (2)同(1)之理,可知不同供應(yīng)商的輪胎之間的磨損程度有顯著差異。 (3)假設(shè):車速與供應(yīng)商對(duì)輪胎的磨損程度無(wú)交互作用;車速與供

25、應(yīng)商不同水平組合形成的總體都是正態(tài)總體;上述總體方差都相同;各觀測(cè)數(shù)據(jù)相互獨(dú)立;行因素原假設(shè);列因素原假設(shè)。四、簡(jiǎn)單隨機(jī)抽樣是從單元數(shù)為N的總體中逐個(gè)不放回等概率抽取n個(gè)單元或者一次性隨機(jī)抽出n個(gè)單元,得到簡(jiǎn)單隨機(jī)樣本。它是最簡(jiǎn)單的概率抽樣方法。適用于總體總量較小或總體方差與任意局部方差基本相當(dāng)?shù)膱?chǎng)合。如果總體總量較大或總體各單元差異較大,就不宜單獨(dú)使用,因?yàn)榇藭r(shí)擁有完整的抽樣框是困難的,抽樣單元也比較分散,會(huì)增加調(diào)查費(fèi)用,而且會(huì)使總體目標(biāo)量的估計(jì)產(chǎn)生較大誤差。所以一般是與其他方法結(jié)合使用,比如分層抽樣各層內(nèi)科采用簡(jiǎn)單隨機(jī)抽樣,整群抽樣抽取群、多階段抽樣各階的抽樣也都可采用它。五、回歸模型:。

26、 假設(shè):解釋變量為非隨機(jī)變量;解釋變量不存在多重共線性(即要求設(shè)計(jì)矩陣列滿秩,樣本量大于自變量個(gè)數(shù)); Guass-Markov假定:;正態(tài)假定:。假設(shè)不成立之應(yīng)對(duì):假設(shè)是回歸分析基本要求,否則就不是回歸分析;假設(shè)若不滿足,就是多重共線性現(xiàn)象。有多種克服方法,比如剔除不重要自變量,增大樣本量,對(duì)回歸系數(shù)進(jìn)行有偏估計(jì)(主成分法、嶺回歸法、偏最小二乘法等)等等。假設(shè)若不滿足,隨機(jī)誤差有可能出現(xiàn)異方差現(xiàn)象或自相關(guān)現(xiàn)象。若是前者,可通過(guò)加權(quán)最小二乘法、Box-Cox變換法、方差穩(wěn)定性變換等方法來(lái)克服;若是后者,可通過(guò)修改模型、增加自變量、迭代法等方法來(lái)克服。假設(shè)若不滿足,則無(wú)法進(jìn)行參數(shù)區(qū)間估計(jì)和假設(shè)檢

27、驗(yàn)??梢灾匦掠^測(cè)數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行正態(tài)性變換。六、意義:該模型表示原始變量被表示為公共因子和特殊因子的線性組合,展現(xiàn)了原始變量與公共因子之間的相關(guān)關(guān)系,多數(shù)的原始變量(個(gè))被綜合少數(shù)的新變量(個(gè),)公共因子,起到了降維的效果,簡(jiǎn)化了問(wèn)題的復(fù)雜性又抓住了問(wèn)題的主要矛盾。假設(shè):a.是可觀測(cè)的隨機(jī)向量,;b.是不可觀測(cè)的隨機(jī)向量,;c. ,;d. 。七、(1)若不考慮國(guó)外部門的影響,GDP被分配于政府、企業(yè)、居民三個(gè)部門。(可以對(duì)原始收入形成、初次分配、再分配過(guò)程進(jìn)行一定的闡述) (2)略。八、(1)參看高敏雪,李靜萍.經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)M.北京:中國(guó)人民大學(xué)出版社, 2003之P75-P76財(cái)務(wù)統(tǒng)計(jì)分析,

28、P78經(jīng)濟(jì)效益考核體系。 (2)略。2005年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、(1)圖略。 (2)圖略。 (3)由莖葉圖和箱線圖知,上網(wǎng)者年齡主要集中在20-30歲之間,離散程度較小,呈右偏分布。二、若采用兩兩配對(duì)的方式檢驗(yàn),會(huì)增加犯第一類錯(cuò)誤的概率(設(shè)檢驗(yàn)水平為,連續(xù)作3次兩兩檢驗(yàn)犯第一類錯(cuò)誤的概率為),另外隨著檢驗(yàn)次數(shù)的增多,偶然因素導(dǎo)致差別的可能性也會(huì)增加;而方差分析是同時(shí)考慮所有樣本,因而排除了錯(cuò)誤的累積,減少了偶然因素的不利影響,也簡(jiǎn)化了檢驗(yàn)過(guò)程。三、(1)樣本量為36,可視為大樣本,考慮如下95%的置信區(qū)間 代入,得 (2)不一定。因?yàn)閰^(qū)間是一個(gè)確定的區(qū)間,餐館實(shí)際月平均用水量要

29、么在其中,要么不在其中,兩者只有其一。區(qū)間其實(shí)是區(qū)間的一個(gè)樣本實(shí)現(xiàn),區(qū)間是一個(gè)隨機(jī)區(qū)間,它有95%的可能性包含餐館實(shí)際月平均用水量。 (3)餐館管理協(xié)會(huì)估計(jì)的月平均用水量=100噸是不能輕易否定的,應(yīng)處于被“保護(hù)”位置,則檢驗(yàn)假設(shè)為 若拒絕原假設(shè),也就是發(fā)生了小概率事件,那么我們有充分的理由支持備擇假設(shè);若不拒絕原假設(shè),并不意味著它就一定正確,只是現(xiàn)有證據(jù)不足以拒絕它而已。 (4)用到了中心極限定理。它說(shuō)的是獨(dú)立同分布隨機(jī)變量之和的極限分布是正態(tài)分布,揭示了正態(tài)分布的源泉和重要地位,是參數(shù)區(qū)間估計(jì)和假設(shè)檢驗(yàn)的理論基礎(chǔ)。四、(1)線性回歸方程為 其中第個(gè)回歸系數(shù)的意義是,在其它自變量保持不變時(shí),

30、每變動(dòng)一個(gè)單位,就平均變動(dòng)個(gè)單位。 (2)由值=0.00<知,回歸方程的線性關(guān)系是顯著的。 (3)第1,2,3個(gè)回歸系數(shù)顯著性檢驗(yàn)值分別是0.0271<,0.0083<,0.3607< 故第1,2個(gè)回歸系數(shù)顯著,第3個(gè)回歸系數(shù)不顯著。 (4)多重判定系數(shù) 它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測(cè)值的優(yōu)劣程度。此處,表明回歸擬合效果很好。 (5)估計(jì)標(biāo)準(zhǔn)誤差 是的標(biāo)準(zhǔn)差的股價(jià),反映了(房地產(chǎn)銷售價(jià)格)的波動(dòng)程度。 (6)有用。雖然該變量的系數(shù)沒(méi)通過(guò)顯著性檢驗(yàn),但并不意味著該變量沒(méi)用,它在經(jīng)濟(jì)解釋上可能還是有一定意義的,方程總體顯著,說(shuō)明方程包含

31、該變量總體上是有用的。也可能是多重共線性造成了不顯著。五、(1)圖略。 (2)按照分層的觀點(diǎn),劃分子總體應(yīng)該是兩個(gè)子總體之間的差異盡量大,而子總體內(nèi)部的差異盡量小,故劃分方式為:第一個(gè)子總體為,第二個(gè)子總體為。但如果要進(jìn)行精度的計(jì)算,不能出現(xiàn)一個(gè)總體只含有一個(gè)單元的情況,故為了計(jì)算精度,下面的劃分方式也是可以接受的:第一個(gè)子總體為,第二個(gè)子總體為。此外也可以應(yīng)用多元統(tǒng)計(jì)中的系統(tǒng)聚類法形成兩個(gè)子總體:第一個(gè)子總體為,第二個(gè)子總體為。 (3)上述數(shù)據(jù)出現(xiàn)了離群值,它是調(diào)查數(shù)據(jù)里的極端值,會(huì)于其它數(shù)據(jù)明顯不一致。其起因一般有三個(gè): 被調(diào)查者回答有誤;調(diào)查者記錄有誤;數(shù)據(jù)本身的差異。當(dāng)總體呈偏態(tài)分布時(shí)

32、,這種情況就可能發(fā)生。例如數(shù)據(jù)是不同公司的市場(chǎng)份額,那么少數(shù)公司占整個(gè)銷售額的絕大部分,其余公司占小部分的情況是很普遍的。但是,題目強(qiáng)調(diào)了給定的數(shù)據(jù)是總體的全部真實(shí)數(shù)據(jù),那么第、種情況是不存在的,所以應(yīng)該是第種情況。 (4)總體均值 總體方差 (5)在本例應(yīng)用的四種方法:簡(jiǎn)單隨機(jī)抽樣的不足之處在于估計(jì)精度略低。分層抽樣的不足之處在于如果按照最優(yōu)的層內(nèi)差距盡量小、層間差距盡量大的原則(2)之)分層會(huì)導(dǎo)致精度無(wú)法估計(jì),故只能選擇次優(yōu)分層方法(2)之)。整群抽樣的不足之處在于無(wú)法通過(guò)分群使群間差異盡量小,因?yàn)樵谌魏我粋€(gè)群中都會(huì)使該群與其它群差異較大。此外整群抽樣的估計(jì)精度一般也比簡(jiǎn)單隨機(jī)抽樣低;系統(tǒng)

33、抽樣的不足之處在于估計(jì)量方差的估計(jì)相對(duì)困難。綜上所述,盡管各種抽樣方式各有不足之處,但是結(jié)合下面一道問(wèn)題,我認(rèn)為簡(jiǎn)單隨機(jī)抽樣、分層隨機(jī)抽樣和系統(tǒng)抽樣的不足之處都可以接受,但是整群抽樣的不足之處相對(duì)顯著,而且整群抽樣在下面一道題里計(jì)算也非常困難,所以整群抽樣最不合適。 (6)簡(jiǎn)單隨機(jī)抽樣 可能的樣本:; 樣本均值:; 樣本方差:。分層隨機(jī)抽樣 分層方式為(2)之。 可能樣本:; 樣本均值:; 樣本方差:。系統(tǒng)抽樣 抽樣方式為環(huán)形等距抽樣()。可能樣本為: 樣本均值:; 樣本方差: (7)簡(jiǎn)單隨機(jī)抽樣。 分層隨機(jī)抽樣。 系統(tǒng)抽樣。 分層隨機(jī)抽樣和系統(tǒng)抽樣的設(shè)計(jì)效應(yīng)均小于1,說(shuō)明這兩種方式在此情景下

34、的抽樣效率要高于簡(jiǎn)單隨機(jī)抽樣。此外,說(shuō)明分層隨機(jī)抽樣的效率高于系統(tǒng)抽樣。由于遠(yuǎn)小于1,說(shuō)明此情形下分層隨機(jī)抽樣的效率遠(yuǎn)高于簡(jiǎn)單隨機(jī)抽樣。而接近于1,說(shuō)明系統(tǒng)抽樣的效率接近于簡(jiǎn)單隨機(jī)抽樣。六、聯(lián)系:形式接近。,;確定方式接近?;貧w估計(jì)中若未知,則。 區(qū)別:目的不同?;貧w方法揭示因變量和自變量的線性依賴關(guān)系,即因變量變化引起的自變量變化。抽樣里則是利用輔助變量X來(lái)提高對(duì)Y的估計(jì)精度。七、生產(chǎn)過(guò)程提供了用于分配的增加值。分配在生產(chǎn)的基礎(chǔ)上對(duì)增加值進(jìn)行分配。使用在分配基礎(chǔ)上進(jìn)行消費(fèi)和儲(chǔ)蓄。八、(1)A地貧困者比重20% 。B地貧困者比重10%。A地貧困深度。 B地貧困深度。(2)A地貧困者人數(shù)比B地多

35、,但是由貧困深度反映出A的貧困人員在整體收入水平上比B地更接近貧困線。(3)不能,貧困者比重僅能反映人數(shù),不能反映貧困程度;貧困深度反映了一定的貧困程度,但是受貧困情況分布影響較大,不能很好的反映當(dāng)貧困者的收入存在較大差異時(shí)的情況。此外僅靠收入狀況也不能客觀地反映貧困狀況。可以采用森貧困系數(shù),也可采用其他指標(biāo)作為補(bǔ)充,如文盲率、嬰兒死亡率等等。九、(1)40 ,-70 ,-30。 (2)交易中經(jīng)常賬戶和資本金融賬戶的盈余,進(jìn)入儲(chǔ)備資產(chǎn),也即儲(chǔ)備資產(chǎn)增加125億元。 (3)GDP+來(lái)自國(guó)外的生產(chǎn)要素凈額=GNP,即GDP+40=GNP。 GNP+來(lái)自國(guó)外的轉(zhuǎn)移凈收入=國(guó)民可支配收入,即GNP-6

36、5=國(guó)民可支配收入。 (4)該國(guó)在貨物和服務(wù)以及財(cái)產(chǎn)收入方面有較大的順差,儲(chǔ)備資產(chǎn)增加,多余資金流出到國(guó)外各地投資,取得大量的財(cái)產(chǎn)收入,是發(fā)達(dá)國(guó)家的典型表現(xiàn)。2004年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答1.(1)圖略。(2)分三方面比較:集中趨勢(shì)(平均數(shù)、中位數(shù)、眾數(shù)),離散程度(標(biāo)準(zhǔn)差、方差、極差),分布形態(tài)(峰度、偏斜度)。(3)可畫散點(diǎn)圖直觀判斷;也可計(jì)算與均值的絕對(duì)距離,看是否偏大。(4)可畫畫直方圖、Q-Q或P-P圖;也可計(jì)算峰度與偏斜度。2(1)420,2,1.48;27,142;4256。 (2)因?yàn)?,所以不能拒絕均值相等的原假設(shè),即認(rèn)為三種方法組裝的產(chǎn)品數(shù)量之間無(wú)顯著性差異。 (3

37、)假定:三種方法對(duì)應(yīng)的總體服從正態(tài)分布;各總體方差相同;各觀測(cè)值相互獨(dú)立;個(gè)工人水平相當(dāng)。 (4)前提:方差分析得出總體均值不全相等的結(jié)論; 作用:進(jìn)一步分析到底是哪些均值之間不相等,是通過(guò)總體均值之間兩兩配對(duì)比較來(lái)進(jìn)行檢驗(yàn)的。3(1)從袋中任取一球,觀察其顏色,定義隨機(jī)變量 就是該問(wèn)題的總體,其分布為(2)樣本量。(3)若令表示第次取球的結(jié)果,則樣本為,拒絕域?yàn)?(4)犯第一類錯(cuò)誤的概率 4. 以單因素方差分析說(shuō)明:由方差分析基本假定,有。令,有。令總均值,有(其中稱為第個(gè)水平的(主)效應(yīng),它表示每個(gè)自變量對(duì)因變量的單獨(dú)影響),得單因素方差分析模型舉例略。5.正態(tài)線性回歸模型為 最小二乘估計(jì)就是尋找,使得離差平方和 達(dá)到最小。 由上述模型知 似然函數(shù)就是隨機(jī)向量的聯(lián)合概率密度 最大似然估計(jì)就是尋找使得達(dá)到最大,由上式易知,這只需 達(dá)到最小,這與最小二乘估計(jì)殊途同歸。證畢。6-10略。2003年人大統(tǒng)計(jì)學(xué)專業(yè)課初試題參考解答一、 不能。GDP在進(jìn)行國(guó)家間比較的時(shí)候采用匯率法,匯率的變動(dòng)會(huì)影響折算后的結(jié)果,不能客觀反映經(jīng)濟(jì)水

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論