版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章從數(shù)理統(tǒng)計(jì)到古典回歸模型案例4-1:人類天生的統(tǒng)計(jì)本能在基因上,我們?nèi)院臀撮_化的土著人很接近。我們信念的形成,充滿著迷信——即使今天也不例外,甚至尤以今天為甚。某一天,原始部落的某個(gè)人摸鼻子后不久,天開始下雨,于是他煞費(fèi)苦心地發(fā)展出一套抓鼻子祈雨的方法。同樣地,我們會(huì)把經(jīng)濟(jì)的繁榮歸功于中央銀行降低利率。或者一家公司的經(jīng)營(yíng)成功和新總裁走馬上任有關(guān)。類似風(fēng)馬牛不相及的事件屢屢被我們扯上聯(lián)系,并導(dǎo)致我們?cè)谌松闹匾駬耜P(guān)頭步步踏錯(cuò),先機(jī)盡失。我們所受的教育和文化,騙我們?nèi)ハ嘈趴茖W(xué)和邏輯進(jìn)入現(xiàn)代生活時(shí),迷信就會(huì)自然消除。但是隨著我們的智力與日俱增,隨機(jī)現(xiàn)象卻源源不絕而來(lái),我們變得越來(lái)越迷信。哈佛大學(xué)心理學(xué)家Skinner做過(guò)一個(gè)關(guān)老鼠和鴿子的籠子,籠子有個(gè)開關(guān),鴿子可以用喙去操作。此外,有個(gè)電動(dòng)裝置會(huì)把食物送進(jìn)籠子里。1948年,他以隨機(jī)的方式送食物給非常饑餓的鴿子。隨后他觀察到鴿子表現(xiàn)出相當(dāng)驚人的行為。它們根據(jù)內(nèi)在根深蒂固的統(tǒng)計(jì)機(jī)制,發(fā)展出極其復(fù)雜、有如祈雨般的舞蹈行為;有只鴿子會(huì)對(duì)著籠中特定的一角有規(guī)律地?fù)u頭,另一只鴿子會(huì)以逆時(shí)鐘方向轉(zhuǎn)頭。幾乎每一只鴿子都發(fā)展出一種與獲取食物聯(lián)結(jié)起來(lái)的特別儀式,慢慢地固定到它們心里。有那么一段時(shí)間,我迷上了炒股,每天早上搭黃色出租車去證券公司,有一天,不幸卻搭上一輛紅色出租車,司機(jī)還不知道他要去的地方,我試著要他從央行門口往南走,但他頑固地再往南多走了一個(gè)街區(qū),我被逼得只好利用后門口進(jìn)入證券公司,那一天,我操作的投資組合賺了很多錢,那是我年輕時(shí)最美好的一天。隔天,一切如常,我在校門口等那輛出租車,前一天的紅色出租車和那個(gè)頑固的家伙卻不見蹤影。真是不巧,因?yàn)槲矣袀€(gè)無(wú)法解釋的念頭,想要謝謝那天他對(duì)我做的好事,還想多給他一點(diǎn)錢。我好不容易等到一輛紅色的出租車,上車后我告訴新司機(jī)載我繞到證券公司的后門,也就是前一天下車的那個(gè)地方。。。。進(jìn)了公司,迎面有個(gè)鏡子,看著自己,發(fā)現(xiàn)仍然裝著昨天那件沾了污漬的襯衣。我體內(nèi)有另一個(gè)我,顯然相信從這個(gè)入口上樓、裝這件臟衣服、坐與前一天一樣的車、走同樣的入口與股票的市場(chǎng)走勢(shì)之間有強(qiáng)烈的因果關(guān)系存在。我為自己的行為舉止像個(gè)騙子,猶如扮演別人角色的演員一樣而啞然失笑。有些賭徒相信賭博的結(jié)果和某些身體動(dòng)作之間有一些不自然的關(guān)聯(lián),據(jù)而發(fā)展出一些扭曲的行為。我出現(xiàn)了所謂的“賭徒的迷信”。雖然細(xì)微且難以察覺,卻正在迅速累積。我們的心似乎一直想找出某種統(tǒng)計(jì)上的關(guān)聯(lián),在理性上我們知道這種統(tǒng)計(jì)關(guān)聯(lián)是騙人的,因?yàn)闃颖竞苄?。但是這種天生的統(tǒng)計(jì)本能,并沒有因?yàn)槲以诩僬f(shuō)檢驗(yàn)上的專長(zhǎng)而有所抑制。——納西姆。塔勒布,《隨機(jī)致富的傻瓜》,中信出版社概率論是已知總體,即已知DGP或者分布函數(shù),求隨機(jī)變量取特定值或者落在特定區(qū)域內(nèi)的可能性。而數(shù)量統(tǒng)計(jì)是未知DGP或分布函數(shù),面對(duì)一個(gè)黑箱,根據(jù)從黑箱中取出的東西來(lái)推測(cè)黑箱中的DGP或者分布函數(shù)的類型以及未知參數(shù)的取值。f(x)f(x)案例4-2:統(tǒng)計(jì)小史1085年,《末日審判》(Domesday)統(tǒng)計(jì)了田地名稱、擁有者、面積、可耕地面積、牛群數(shù)量、土地價(jià)值…….,但國(guó)王威廉沒有將這些數(shù)據(jù)用于任何地方,900年來(lái),他一直是研究的對(duì)象。英國(guó)的格朗特(Graunt,1620-1674)對(duì)這樣一個(gè)問題很感興趣“誰(shuí)活著?誰(shuí)死了,為什么死了?”,他研究了死亡公告,分析了1604-1661年的數(shù)據(jù)(<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>),書中寫道:“大多數(shù)人只是找找奇怪的事,看看離奇的死亡,僅此而已”。謀殺很受關(guān)注,但是格發(fā)現(xiàn),在229250例死亡中,只有86人死于謀殺,謀殺不是殘廢的主要原因。人們還認(rèn)為,“瘟疫伴隨著一個(gè)新王朝的開始”,格證明這種看法是錯(cuò)誤的。國(guó)王查理三世出面舉薦他加入皇家學(xué)會(huì)。哈雷預(yù)言哈雷慧星將于1758年返回,他對(duì)天文著迷,個(gè)人的擁有的儀器足以成立一個(gè)天文臺(tái)。它沒畢業(yè)就到南大西洋的一個(gè)小島上,準(zhǔn)確地測(cè)量了300多顆恒星,他描繪了第一張世界海洋地圖,標(biāo)明了風(fēng)向,其中包含的信息對(duì)每一位船長(zhǎng)都有重要價(jià)值。他提問“40歲的男人再活7年的概率是多大”?并編出了第一年生命表,資助牛頓出版了科學(xué)史上最有影響的著作《自然哲學(xué)的數(shù)學(xué)原理》。費(fèi)希爾(Fisher,1890-1962)是現(xiàn)代統(tǒng)計(jì)學(xué)的奠基人,1925年出版《研究工作者用的統(tǒng)計(jì)方法》,提出隨機(jī)化的實(shí)驗(yàn)設(shè)計(jì)。休哈特(Shewhart,1891-1967)提出質(zhì)量控制,戴明(Deming)將其發(fā)揚(yáng)光大。應(yīng)用于流行病學(xué)、斯諾(Snow,1813-1858)發(fā)現(xiàn)霍亂與水源的關(guān)系。另用于人口普查,民意調(diào)查等。一、問題的提出天安門城樓到底有多高,其“真實(shí)”的高度究竟是多少?恐怕沒有人能夠給出完全精確的答案,即使給出來(lái)也未必令人信服。盡管實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),然而如果我們?nèi)y(cè)量,每次測(cè)量的結(jié)果都會(huì)不同,應(yīng)該相信哪一次的結(jié)果呢?測(cè)量很多很多次是否有幫助?如何來(lái)處理這很多次的測(cè)量結(jié)果,以便最好地逼近真實(shí)高度?上述問題可以轉(zhuǎn)化為如下的數(shù)學(xué)模型:其中為天安門城樓的高度,當(dāng)然是一個(gè)客觀存,有唯一精確值的未知數(shù)。而u為測(cè)量誤差,是一個(gè)隨機(jī)變動(dòng)的隨機(jī)數(shù)。y為測(cè)量結(jié)果。顯然只有y是能夠觀察到的,而真實(shí)高度與誤差卻無(wú)法觀察到的,核心問題就是如何用觀察到的y來(lái)求得未知的?總體是任何一種定義良好的一種對(duì)象的全體,如全部人民大學(xué)的學(xué)生不是一個(gè)定義良好的總體,而全部人民大學(xué)學(xué)生的高考成績(jī)是一個(gè)定義良好的總體。天門安城樓高度的所有測(cè)量結(jié)果也是一個(gè)定義良好的總體(無(wú)限總體)。總體也是一種數(shù)據(jù)生成機(jī)制(DGP,datageneratingprocess),如天門安城樓高度的測(cè)量結(jié)果由這一機(jī)制生成,既然u為隨機(jī)變量,則它有相應(yīng)的矩,假設(shè)其方差為。二、樣本最容易理解的抽樣是從有限總體中抽取一個(gè)樣本,比如從100個(gè)混有紅球和黑球的暗箱中摸出8個(gè)球來(lái)。有限樣本的抽樣又分為放回和不放回兩種,如果放回,則同一個(gè)球可能被抽中兩次。從無(wú)限總體中抽取一個(gè)樣本可被視為某個(gè)數(shù)據(jù)生成過(guò)程(DGP)的一次實(shí)現(xiàn)。比如天門安城樓高度的測(cè)量結(jié)果y是一個(gè)無(wú)限總體,某一次的測(cè)量結(jié)果可視為按照公式所確定的數(shù)據(jù)產(chǎn)生機(jī)制生成一個(gè)數(shù)據(jù)yi。相應(yīng)地n次測(cè)量的結(jié)果可被視為一個(gè)n維隨機(jī)向量(樣本)表格4SEQ表格\*ARABIC\s11:隨機(jī)抽樣:抽得任何一個(gè)樣本的概率相同yy1y2…yn第一次抽樣y1y11y12…y1n第二次抽樣y1y21y22…y2n………第m次抽樣ymym1ym2…ymn樣本聯(lián)合概率密度:已知隨機(jī)變量Y,從該總體中隨機(jī)的取一個(gè)容量為n的樣本,其聯(lián)合概率密度為fJ(Y1,Y2,Y3,…,Yn)。同分布:指總體服從同一種分布。想象一下,箱子中既有不同重量的紅球(假設(shè)重量服從正態(tài)分布f1(Y)),也有不同重量的綠球(假設(shè)其重量服從指數(shù)分布f2(Y)),于是從這個(gè)箱子里隨機(jī)抽取的球不是同分布的。如果箱子中只有紅球,則是同分布的。簡(jiǎn)單隨機(jī)抽樣:是指每個(gè)樣本被抽取的可能性等同,也就是事前不知道會(huì)抽中哪個(gè)樣本,每個(gè)樣本都有同樣的可能被抽中,否則,就不能算做隨機(jī)抽樣。想像上面的例子,不論是很重的球還是很輕的球,也不論是紅球還是綠球,更不論服從什么分布,反正每個(gè)球被抽中的概率都一樣。比如箱中共有100個(gè)球,則每個(gè)球被取出的可能都為0.01。再如街頭攔訪,老出門在外的或老在家的人被抽中的概率就不一樣,是一個(gè)明顯的非隨機(jī)樣本。獨(dú)立:獨(dú)立,指的是各個(gè)試驗(yàn)或觀察得到的樣本間是相互獨(dú)立的。獨(dú)立和隨機(jī)是兩回事,隨機(jī)樣本并不一定相互獨(dú)立,而相互獨(dú)立的兩個(gè)樣本并不一定隨機(jī)。獨(dú)立性要求每一次取球的結(jié)果不影響另一次取球的結(jié)果,如果取出一個(gè)紅球,下一次總是又取出一個(gè)紅球,則不獨(dú)立。同樣,如果取出一個(gè)很重的球,下一次總?cè)〕鲆粋€(gè)很輕的球,再下一次又取出一個(gè)很重的球,這種的樣本不獨(dú)立。案例4-3:獨(dú)立性與Polya過(guò)程阿瑟提出波利亞過(guò)程(polyaprocess),假設(shè)有個(gè)盒子,起初裝有等量的黑球和紅球,每次取球之前,得先猜測(cè)取出來(lái)的是哪個(gè)顏色,而猜對(duì)的概率取決于前面猜對(duì)的記錄,先前猜對(duì)的話,后來(lái)繼續(xù)猜對(duì)的概率會(huì)提高,仿真這種結(jié)果,可以看出結(jié)果變異非常大,有極多的成功,也有極多的失敗。在常見的模式中,玩家是把取出的球放回去后再猜下一次會(huì)取到哪種顏色的球,假設(shè)你這次猜對(duì)了,這會(huì)提高你下次贏的概率嗎?不會(huì),但波利亞過(guò)程會(huì),為什么這在數(shù)學(xué)上極難處理?原因出在獨(dú)立性的觀念被破壞。獨(dú)立性是指每一次取球時(shí),都不受先前的結(jié)果影響,它是處理概率數(shù)學(xué)的必要條件。沙堆現(xiàn)象不斷地把沙加到頂端來(lái)蓋座沙堡,我想知道我的沙堡能蓋到多高,我的沙堡終于跨了,所有的沙又變成海灘上的一部分。最后一粒沙破壞了整座結(jié)構(gòu)。線性的力量加在一個(gè)物體上,結(jié)果產(chǎn)生了非線性的效果。一粒沙竟然產(chǎn)生不成比例的后果?!耙桓静輭嚎逡活^駱駝”。生命是以非線性的方式呈現(xiàn)不公平。假想等候室里有一大堆學(xué)生等著試演測(cè)驗(yàn),最終錄用者將住進(jìn)豪宅還可能染上吸毒惡習(xí),而其他絕大多數(shù)人,他們將終生在附近的咖啡店端茶倒水。名氣的形成有其自身的動(dòng)態(tài)過(guò)程,演員因?yàn)槟骋蝗喝苏J(rèn)識(shí)他而被另一群人認(rèn)識(shí),名氣像螺旋一樣動(dòng)個(gè)不停,起點(diǎn)可能就在試演室。他會(huì)被選上,可能是某個(gè)可笑的細(xì)節(jié)恰好投合主試者當(dāng)天的心情。要是主試者前一天對(duì)某個(gè)人產(chǎn)生好感,而這個(gè)受試者的名字聽起來(lái)和眼前這個(gè)人很像,那么從那個(gè)特殊的樣本歷史中選出來(lái)的這位演員,可能就必須在另一個(gè)樣本歷史中端送咖啡。獨(dú)立同分布:從服從同一分布的總體中隨機(jī)獨(dú)立地抽取樣本。獨(dú)立同分布樣本的聯(lián)合概率密度滿足公式:clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=row(y)//①樣本容量end三、最小二乘估計(jì)OLS(一)最小二乘估計(jì)量取得樣本后,我們有了多個(gè)數(shù)據(jù),如何處理這些數(shù)據(jù)呢?同樣的問題曾困惑著18世紀(jì)和19世紀(jì)初的許多天文學(xué)家和數(shù)學(xué)家。那個(gè)時(shí)代的人熱衷于測(cè)量天體的軌道長(zhǎng)度,他們?cè)诤芏嗟胤浇⑻煳呐_(tái),反復(fù)測(cè)量,得到大量的數(shù)據(jù)。比如測(cè)量慧星的軌道,“每次測(cè)量都有誤差,次數(shù)越多,誤差累積越多,但把次數(shù)減少并不是解決問題的辦法,用什么辦法來(lái)恰當(dāng)?shù)厥褂么罅康臄?shù)據(jù)呢”?勒讓德(Legendre,1752-1833)解決了如何從數(shù)據(jù)中得出準(zhǔn)確結(jié)論的問題,他提出了“最小二乘法”。而著名的數(shù)學(xué)家高斯(1777-1855)也聲稱他發(fā)明了最小二乘法。拉普拉斯在1812年寫出《解析概率論》,他是拿破侖的朋友,但后來(lái)又背叛了拿破侖,他討論了誤差理論,提出土星是太陽(yáng)質(zhì)量的1/3512,估計(jì)偏離真實(shí)的1%的可能性是1/11000。他還提出了中心極限定理。最小二乘法的核心思想是:尋求樣本點(diǎn)與總體參數(shù)的距離最小。這種距離通常以平方和來(lái)表示,因此稱為最小二乘估計(jì)。根據(jù)這個(gè)式子,我們就可以計(jì)算出b稱之為β的最小二乘估計(jì)量(OLS)。mataC=invsym(J’J)*J’b=C*yb//②回歸系數(shù)Coef.end運(yùn)用其他的原理,能得到其他估計(jì)量,比如矩估計(jì)量和極大似然估計(jì)量(見第九小節(jié))。根據(jù)最小二乘法估計(jì)原理,我們得到如下的估計(jì)量:上式右邊顯然是一個(gè)函數(shù),是樣本隨機(jī)變量的函數(shù)g(Y1,Y2,…,Yn)。實(shí)際上,估計(jì)量是一個(gè)處理隨機(jī)樣本的法則,這個(gè)法則是抽樣進(jìn)行之前就已制定好的,不管實(shí)際上得到的是什么數(shù)據(jù),這個(gè)法則都不變。而當(dāng)這個(gè)法則改變了,我們就得到另一個(gè)估計(jì)量,比如將樣本減均值得到另一個(gè)估計(jì)量殘差e.殘差的平方和(即樣本隨機(jī)向量的某個(gè)二次型)是另一個(gè)估計(jì)量既然估計(jì)量是隨機(jī)變量的函數(shù),它也是一個(gè)隨機(jī)變量,它的隨機(jī)性由樣本決定,隨著樣本而變,代入不同的樣本,同一個(gè)估計(jì)量會(huì)得到不同的估計(jì)值。估計(jì)量與估計(jì)值sysuseauto,clearsample10sumprice反復(fù)執(zhí)行上面的三行命令,每一次我們都得到不同的均值。drawnormu,n(8)cleargy=10+uregy同樣,反復(fù)執(zhí)行上述命令,每一次我們得到不同的估計(jì)值(二)線性無(wú)偏估計(jì)量對(duì)同一個(gè)樣本,可以定義無(wú)窮多的估計(jì)量,這些估計(jì)量?jī)H依賴于總體的性質(zhì)和定義估計(jì)量的函數(shù),我們不能控制總體的特征,它是由客觀分布規(guī)律所決定的,而客觀分布規(guī)律又是由自然規(guī)律或社會(huì)力量來(lái)決定,不是我們所能控制的。但是我們可以選擇定義估計(jì)量的函數(shù)。問題是我們?cè)撨x擇什么樣的函數(shù)來(lái)處理觀察到的樣本值呢?潛在的函數(shù)既可以是線性的也可以是非線性的,但線性的往往比較容易處理。線性估計(jì)量是樣本的線性函數(shù)(組合)。比如對(duì)樣本Y,給定任意非隨機(jī)矩陣A,AY便是一個(gè)線性估計(jì)量。其次,既然估計(jì)量是隨機(jī)變量,它也就具有期望等數(shù)字特征,而估計(jì)量的期望既取決于樣本特征,也取決于我們所選擇的函數(shù)形式(數(shù)據(jù)處理法則)。無(wú)偏估計(jì)量是一類特殊的估計(jì)量,無(wú)偏估計(jì)量的期望等于總體參數(shù)真值。注意估計(jì)量的無(wú)偏性評(píng)價(jià)的是估計(jì)法則的特性,而不是特定樣本。再次重申,一個(gè)估計(jì)量的無(wú)偏性和可能偏誤的大小依賴于Y的分布和函數(shù)g(),通常Y的分布是我們不能選擇的,但法則g()的選擇操縱在我們手中,如果我們想要得到一個(gè)無(wú)偏估計(jì)量,我們就要對(duì)g()做相應(yīng)的選擇。無(wú)偏性反映的是有限樣本的性質(zhì),它可以理解為執(zhí)行無(wú)窮次抽樣(抽樣次數(shù)m趨于無(wú)窮,但樣本容量n為一個(gè)有限值),然后利用每個(gè)樣本計(jì)算得到的估計(jì)值的期望等于總體參數(shù)真值。線性無(wú)偏估計(jì)量是同時(shí)滿足線性和無(wú)偏性的估計(jì)量。在測(cè)量的例子中,估計(jì)量b是線性的嗎?是無(wú)偏估計(jì)量嗎?是線性無(wú)偏估計(jì)量嗎?如果不是,需要滿足什么條件才是一個(gè)線性無(wú)偏估計(jì)量?從下式可以看出b是一個(gè)線性估計(jì)量如果要使b成為一個(gè)無(wú)偏估計(jì)量,必須滿足假設(shè)1:即當(dāng)時(shí),b為線性無(wú)偏估計(jì)量。如果假設(shè)不成立,則b是有偏的,在什么情況下,誤差為零的假設(shè)不成立呢?比如測(cè)量時(shí)用的工具并不準(zhǔn)確,總是偏大。再比某測(cè)量員總是傾向于高估測(cè)量結(jié)果等。(三)有效估計(jì)量除了上述線性無(wú)偏估計(jì)量外,考慮另一個(gè)線性無(wú)偏估計(jì)量,因?yàn)轱@然他們都是線性無(wú)偏估計(jì)量,我們又如何在這兩個(gè)法則中間選擇最好的一個(gè)呢?結(jié)論是進(jìn)一步比較估計(jì)量的方差,選擇方差最小的那一個(gè)。如果兩個(gè)無(wú)偏估計(jì)量W1和W2,總有Var(W1)<Var(W2),則稱W1比W2相對(duì)有效。如果不限于考慮無(wú)偏估計(jì)量,那么比較方差大小就毫無(wú)意義。比如,無(wú)論取到什么樣本,我們都設(shè)定一個(gè)等于0的估計(jì)量,其方差最小,但毫無(wú)意義。同時(shí)滿足線性、無(wú)偏、最小方差的估計(jì)量稱為最小方差線性無(wú)偏估計(jì)量(BLUE)。假設(shè)2:,則證明:在假設(shè)1和假設(shè)2下,OLS估計(jì)量b為BLUE估計(jì)量盡管得到了但是,由于未知,仍然無(wú)法求出具體的值,無(wú)偏估計(jì)。mataP=J*invsym(J’J)*J’M=I(n)-Pe=Y-J*brmse=sqrt(e’e/(n-1))//③誤差標(biāo)準(zhǔn)差rmsese=rmse/n//④標(biāo)準(zhǔn)誤seend注意比較下面的四個(gè)概念的區(qū)別:總體方差:Var(Y)均方差(meansquarederror,MSE)定義為:MSE(W)=E[(W-θ)2=Var(W)+[Bias(W)]2=Var(W)+[E(W)-θ]2樣本方差:S是樣本的隨機(jī)變量抽樣方差:既然估計(jì)量是隨機(jī)變量,它也具有方差的屬性,稱為抽樣方差比較:抽樣方差是一個(gè)確定的數(shù),不是一個(gè)隨機(jī)數(shù)。它由無(wú)窮次抽樣,每次抽樣獲得的樣本計(jì)算得到的估計(jì)值,對(duì)所有的估計(jì)值再計(jì)算方差而得到。但樣本方差是一個(gè)隨機(jī)變量,它隨不同的樣本而變動(dòng)。MSE度量W離開θ的平均距離,依賴于方差和偏誤,利用MSE我們可以比較任何兩個(gè)估計(jì)量,即使其中之一或者兩者都是有偏誤的。(四)抽樣分布既然估計(jì)量是一個(gè)隨機(jī)變量,它就有相應(yīng)的分布規(guī)律,稱之為抽樣分布。b服從什么分布呢?如果我們假設(shè)3:由于均值相當(dāng)于隨機(jī)向量的一個(gè)函數(shù)(線性組合)。組合之后,均值仍然為隨機(jī)的,而且成為一個(gè)隨機(jī)變量。由于正態(tài)隨機(jī)變量的線性組合仍然服從正態(tài)分布。因此b也服從正態(tài)分布,正態(tài)分布由均值和方差確定,故估計(jì)量的抽樣分布下面的例題,首先生成一個(gè)均值為0,標(biāo)準(zhǔn)差為1的隨機(jī)誤差項(xiàng),然后生成Y,再抽取8個(gè)樣本,計(jì)算其均值。重復(fù)上述程序1000次,得到1000個(gè)估計(jì)值,做這些估計(jì)值的直方圖,可以發(fā)現(xiàn),它服從正態(tài)分布。captprogdropsdprogsddrawnormu,n(8)clear//8個(gè)期望為10的正態(tài)隨機(jī)樣本gy=10+uregyend***將上述抽樣試驗(yàn)進(jìn)行1000次,得到1000個(gè)均值和標(biāo)準(zhǔn)差simulate_b,reps(1000):sdsum//比較兩者的均值和標(biāo)準(zhǔn)差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))改變樣本容量為800,再進(jìn)行試驗(yàn),觀察估計(jì)量的收斂性。matau=invnorm(uniform(8,1000))y=10*+ub=C*ymean(b’)st_matrix(“b”,b)svmatbtw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))(五)誤差方差的估計(jì)量及其分布是一個(gè)估計(jì)量,自然是一個(gè)隨機(jī)變量,那么這個(gè)隨機(jī)變量服從什么分布呢?clearcaptprogdropsdprogsddrawnormu,n(8)clear//8個(gè)期望為10的正態(tài)隨機(jī)樣本gy=10+uregyscalars=7*(e(rmse))^2end***將上述抽樣試驗(yàn)進(jìn)行1000次,得到1000個(gè)均值和標(biāo)準(zhǔn)差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))matau=invnorm(uniform(8,1000))y=10*+ub=C*ye=y-J*bs=e’est_matrix(“s”,s)svmatstw(kdensity_s)(functiony=chi(x,10,1/sqrt(8)),range(515))(六)F估計(jì)量(七)T估計(jì)量在上面的分布中,β和σ是未知的常參數(shù),因而仍然無(wú)法確定估計(jì)量b的具體分布。怎么辦呢?能否在σ未知的情況下得到某個(gè)具體的分布?辦法是構(gòu)造T值,T值是一個(gè)含有未知常參數(shù)β的估計(jì)量(因?yàn)閎和S都是樣本的函數(shù)),而且T值的分布函數(shù)僅有樣本容量n唯一確定。注意到T值實(shí)際上也是樣本的一個(gè)函數(shù),然而當(dāng)總體服從正態(tài)分布時(shí),T值成為一個(gè)僅與樣本容量有關(guān)的統(tǒng)計(jì)量。注意到上式中僅有一個(gè)未知常參數(shù)β,我們把這種統(tǒng)計(jì)量稱為樞柚量。四、區(qū)間估計(jì)區(qū)間估計(jì)的含義是:總體參數(shù)β(真值)被由樣本和置信水平構(gòu)造的區(qū)間覆蓋住的概率。根據(jù)一個(gè)樣本的觀察值給出總體參數(shù)的估計(jì)范圍,并給出總體參數(shù)落在這一區(qū)間的概率t分布僅有一個(gè)參數(shù),即樣本容量n,當(dāng)n的大小被確定,分布即被決定。隨機(jī)變量T落在(-∞,-t0.025)和(+t0.025,+∞)內(nèi)的概率為0.05,T落在(-t0.025,+t0.025)的概率為0.95。而T由n,b,S及β四個(gè)變量所決定。給定樣本,則n,b,S都是確定的,但樣本容量不變,而樣本變化,b和S會(huì)隨之變化,而β為未知參數(shù),但β落在下面區(qū)間的概率為0.95大致意思是如果隨機(jī)抽取樣本容量相同(均為n)的樣本很多很多次,每次都計(jì)算出相應(yīng)的S,b,代入上式計(jì)算出許許多多的區(qū)間,則所有區(qū)間中約有95%將包含總體參數(shù)β,有5個(gè)不包含β。真值約有95次穿過(guò)區(qū)間,但約有5次在區(qū)間兩個(gè)端點(diǎn)之外。對(duì)某一次抽樣來(lái)說(shuō),可信區(qū)間一旦形成,它要么包含總體參數(shù),要么不包含總體參數(shù),二者必居其一,無(wú)概率可言,因此所謂95%的可信度是針對(duì)可信區(qū)間的構(gòu)建方法而言的。區(qū)間估計(jì)與點(diǎn)估計(jì)不同,它尋求一個(gè)區(qū)間,該區(qū)間以一定的概率保證真正的總體參數(shù)值包含在其中,當(dāng)然,對(duì)于一個(gè)特定的樣本,它可能包含參數(shù)真值,也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一個(gè)標(biāo)準(zhǔn)差o=10的正態(tài)隨機(jī)變量樣本,樣本容量為100*/gY=10+uquietlyregyend***將上述抽樣試驗(yàn)進(jìn)行100次,得到100個(gè)樣本均值mean和標(biāo)準(zhǔn)誤simulate_b_se,reps(100)nodots:bbgn=_n*在總體方差未知的前提下,用樣本標(biāo)準(zhǔn)差sd替代,需要借助t統(tǒng)計(jì)量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察總體均值是否在子樣本的95%置信區(qū)間內(nèi),如不在則標(biāo)記為1,否則為零gtsign=(tlow<5&thigh>5)*統(tǒng)計(jì)沒有包括總體均值的子樣本95%置信區(qū)間個(gè)數(shù)tabletsign*圖示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中,我們只進(jìn)行一次抽樣,只構(gòu)造出一個(gè)區(qū)間,并推測(cè)這一個(gè)區(qū)間有95%的可能屬于包含總體參數(shù)的區(qū)間簇,有5%的可能屬于不包含總體參數(shù)的區(qū)間簇。五、假設(shè)檢驗(yàn)真正的總體參數(shù)β是一個(gè)常數(shù),但具體等于多少,卻是未知的。我們假設(shè)總體參數(shù)等于一個(gè)值β0=10,然而這個(gè)值卻是我們假設(shè)出來(lái)的,它也是一個(gè)常數(shù)。然后我們抽取一個(gè)樣本,計(jì)算后得到一個(gè)估計(jì)值b,這個(gè)估計(jì)值b是一個(gè)隨機(jī)變量。注意區(qū)別三個(gè)值β、β0,b。原假設(shè)為β=β0,對(duì)立假設(shè)為β!=β0。也就是說(shuō),我們的假設(shè)值可能正好等于原總體的參數(shù)值,也可能不等。想一想,你能準(zhǔn)確猜測(cè)出真正的總體值嗎?另外,注意到在原假設(shè)與對(duì)立假設(shè)中,并不涉及到估計(jì)量。第一類錯(cuò)誤:如果原假設(shè)正好成立,即原假設(shè)為真,則β=β0。然而即使我們做出了完全正確的假設(shè),我們也只抽得了一個(gè)樣本,從這一個(gè)樣本中估計(jì)得到了樣本均值,并進(jìn)一步得到了T值,這個(gè)T值可能落在發(fā)生概率非常?。?.5%)的兩個(gè)端點(diǎn)之外。這個(gè)小概率事件如果發(fā)生,我們就拒絕原假設(shè),認(rèn)為β!=β0,反之如果T值在95%的概率區(qū)間中間,則不能拒絕原假設(shè)。由于抽樣的偏誤,我們可能恰好在一次抽樣中得到一個(gè)過(guò)大或過(guò)小的T值,從而否定正確的原假設(shè),這種錯(cuò)誤叫做棄真錯(cuò)誤,但是在原假設(shè)為真的前提下,發(fā)生這種錯(cuò)誤的可能性只有5%。第二類錯(cuò)誤:由于原假設(shè)只是我們的一個(gè)假設(shè),我們并不真正知道總體參數(shù)的真實(shí)值,因此可能從一開始,我們的假設(shè)就錯(cuò)誤了。由于這個(gè)錯(cuò)誤的假設(shè),我們會(huì)犯取偽的錯(cuò)誤。若顯著性水平為,當(dāng)真值的確為假設(shè)值時(shí),就是作出正確判斷(即H0為真時(shí)接受H0,取真)的概率,此時(shí)有。而則為棄真的概率。而當(dāng)假設(shè)為錯(cuò)誤,即真值不等于假設(shè)值時(shí),為犯第II類錯(cuò)誤(即原假設(shè)為誤,接受原假設(shè),取偽)的概率。則為作出正確判斷的概率(即原假設(shè)為假時(shí),拒絕原假設(shè)的概率),又稱為檢驗(yàn)的功效。以真值為橫軸,以為縱軸,可以得到一條曲線。這條曲線反映了當(dāng)假設(shè)值偏離真值時(shí),檢驗(yàn)的功效如何變動(dòng):當(dāng)參數(shù)的真值在假設(shè)值附近時(shí),檢驗(yàn)法的功效很低。犯第二類錯(cuò)誤的概率很大。當(dāng)n趨于無(wú)窮時(shí),曲線成為T形,此時(shí),納偽的的概率為0,檢驗(yàn)的功效達(dá)到最高100%。情形1:總體均值已知,為u=10。但我們假裝不知道,卻做出了對(duì)總體均值正確的原假設(shè),認(rèn)為它等于u0=10,則抽樣進(jìn)行假設(shè)檢驗(yàn)如下drawnormx,n(100)m(10)sds(10)dclear*生成一個(gè)均值u=10,標(biāo)準(zhǔn)差o=10的正態(tài)隨機(jī)變量,作為研究總體quietlysumxdi"從樣本計(jì)算t統(tǒng)計(jì)值為:"(r(mean)-10)/(sqrt(100)*r(sd))di"根據(jù)t統(tǒng)計(jì)量臨界值為:"aserrorinvttail(99,0.025)diasresult"對(duì)這次實(shí)驗(yàn),拒絕還是接受?"由于我們通常只取一次樣,所以有可能碰巧得到的樣本正好是導(dǎo)致我們拒絕真的原假設(shè)的樣本。這時(shí)我們就會(huì)犯錯(cuò)誤。然而,棄真錯(cuò)誤的可能性比較小。在100次這樣的抽樣研究中,大概有5次左右。將上述試驗(yàn)進(jìn)行100次,統(tǒng)計(jì)一下有多少次拒絕,多少次接受?captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果樣本統(tǒng)計(jì)量(t)值大于臨界值,則拒絕原假設(shè)一次jud=1,否則為0endsimulateref,reps(100):bbtab_sim//其中的1表示在100次中拒絕原假設(shè)的次數(shù)。情形2:總體均值已知,為u=10。但我們假裝不知道,并做出了對(duì)總體均值錯(cuò)誤的原假設(shè),如認(rèn)為它等于u0=5,則抽樣進(jìn)行假設(shè)檢驗(yàn)如下captprogdropbbprogbbdrawnormx,n(100)m(10)sds(10)dclearquietlysumxscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):bbtab_sim這時(shí),我們100次地拒絕了原假設(shè),認(rèn)為原總體的均值不可能為5。drawnormu,n(100)sds(10)dcleargY=10+uregy顯著性:你和朋友來(lái)進(jìn)行橫跨西伯利亞的越野車比賽,一個(gè)月后,你以一秒之差擊敗他,顯然你不能吹噓自己比他快。你可能受助于某些東西,或者只是隨機(jī)因素使然,別無(wú)其他。那一秒不夠顯著,沒有辦法據(jù)此得出什么結(jié)論?!白孕熊囼T手A比B優(yōu)秀,因?yàn)樗匠3圆げ耍鳥吃豆腐,所在A在3000里的比賽中比B快了1秒”。六、計(jì)量模型的本質(zhì)案例4-5:我們生來(lái)就偏好因果關(guān)系我們生來(lái)不會(huì)把不同的事情獨(dú)立開來(lái)看待,觀察A和B兩件事時(shí),我們很難不假設(shè)是A造成B、B造成A,或者兩者彼此影響。我們會(huì)立即在其間建立因果關(guān)系。在感情上拒絕一項(xiàng)假說(shuō)比接受它更難(即所謂的第一類錯(cuò)誤和第二類錯(cuò)誤)。候讓以前常和索羅斯打網(wǎng)球,有個(gè)周末,索羅斯在談話中表示非??磯暮笫?,還講出一連串復(fù)雜的道理,索羅斯顯然在市場(chǎng)中做空。幾天后,市場(chǎng)激漲,頻創(chuàng)新高。候讓擔(dān)心索羅斯可能賠錢,下次打球時(shí)就問他是否有所損失,索羅斯說(shuō):“我們大賺了一票,我改變了主意,不但回補(bǔ)空頭頭寸,而且還建立起很大的多頭頭寸”。20世紀(jì)80年代末,索羅斯給候讓2000萬(wàn)美金去投機(jī),候讓借此創(chuàng)立了一家交易公司。幾天后,索羅斯與候讓在共進(jìn)午餐時(shí)聊到市場(chǎng),索羅斯的態(tài)度變得相當(dāng)冷談。之后索羅斯把錢全部撤回,沒做任何解釋。索羅斯這種真正的投機(jī)者與別人不一樣的地方,在于他們?nèi)狈β窂揭蕾?,完全不受過(guò)去行為的束縛,每一天都是一張白紙。要測(cè)試信念是否路徑依賴,有個(gè)簡(jiǎn)單的方法。假設(shè)你擁有一幅畫,當(dāng)初是以2萬(wàn)美金買進(jìn)的。由于藝術(shù)品市場(chǎng)欣欣向榮,現(xiàn)在這幅畫值4萬(wàn)美金,如果你手頭上沒有這幅畫,你會(huì)依目前的市場(chǎng)價(jià)格買進(jìn)嗎。如果一連串的觀念都以第一個(gè)觀念馬首是瞻,我們便稱其有路徑依賴。(一)因果關(guān)系與計(jì)量經(jīng)濟(jì)學(xué)的任務(wù)人類對(duì)自己周圍的一切事物都充滿了好奇,孜孜不倦地探索和理解著這個(gè)神奇的世界??梢哉f(shuō),人類的認(rèn)識(shí)是一個(gè)逐步深化的過(guò)程。首先是概念的辨識(shí),從紛紜復(fù)雜的大千世界中抽離出一些關(guān)鍵的概念,在明確其內(nèi)涵及外延的基礎(chǔ)上,使我們今天有了一個(gè)分類無(wú)比細(xì)致的世界,概念和名詞也因此多得要極厚的百科字典才能存載。比如性別是一個(gè)概念,年薪是一個(gè)概念,受教育年限是一個(gè)概念。而這些概念在數(shù)學(xué)公式中則被抽象為一些簡(jiǎn)單的符號(hào)x、y、z。光有概念是遠(yuǎn)遠(yuǎn)不夠的,人們希望能夠?qū)ν粋€(gè)概念有更深入的把握,因此概念需要量化,比如性別有男有女,工資有高有低,教育有文盲到博士的區(qū)別。在數(shù)學(xué)中,便表現(xiàn)為x和y的不同取值,如x=1表示男,x=0表示女,y=10000表示年薪1萬(wàn)元。有了不同的概念,也有了對(duì)各種概念在量和程度上的不同認(rèn)識(shí),人們就希望能舉一反三,見一葉落而知天下秋。在這個(gè)探索過(guò)程中,函數(shù)是一個(gè)核心,它把多個(gè)變量聯(lián)系起來(lái),使人可以由此及彼,見微知著;可能通過(guò)操控一些可控的變量來(lái)對(duì)不可控或難以直接操控的變量(往往目標(biāo))施加影響。比如未來(lái)的高收入是我們的目標(biāo),現(xiàn)在可以操控的是提高自己的能力和受教育水平,而受教育是要付出成本的,投入多少是最佳的呢?初中畢業(yè)?大學(xué)畢業(yè)?要不要上研究生?如果要做出定量的回答,顯然需要對(duì)于教育及教育回報(bào)的定量關(guān)系的深入認(rèn)識(shí)。這種探索在數(shù)學(xué)上表現(xiàn)為函數(shù)y=f(x)。有了函數(shù),人類的認(rèn)識(shí)就有了很大的飛躍,追尋因果關(guān)系也因此成為研究的最主要任務(wù),所謂因果關(guān)系探求,實(shí)質(zhì)上是想要明白f(x)究竟是怎樣的?打開f(x)這個(gè)黑匣子并不容易,純粹從理論上的工作屬于數(shù)量經(jīng)濟(jì)學(xué)的范疇,本文不再展開。我們僅假設(shè)有一個(gè)在理論上存在的函數(shù)關(guān)系:Y=f(x,β),其中β為常參數(shù)。函數(shù)關(guān)系Y=f(X,β)刻畫了Y如何伴隨著另一個(gè)變量X的變化而變化。假設(shè)x與y的關(guān)系是普遍存在的,但是在不同的環(huán)境條件下,β是不同的,在同樣的環(huán)境條件下β是真實(shí)存在的一個(gè)確定的常參數(shù)值?;貧w分析的任務(wù)就是通過(guò)在某個(gè)特定環(huán)境下收集數(shù)據(jù),獲得β的最接近的一個(gè)估計(jì)值。換言之,就是要得到計(jì)量經(jīng)濟(jì)學(xué)的總目標(biāo):得到一個(gè)最佳的估計(jì)量(估計(jì)量是一個(gè)函數(shù),是一個(gè)對(duì)樣本進(jìn)行運(yùn)算的法則)。所謂最佳是針對(duì)這個(gè)法則而言的。這意味著,對(duì)于我們想探索的未知函數(shù)g(X,Y,|β)中的常參數(shù)而言,我們可以根據(jù)樣本得到最逼近β的估計(jì)值。估計(jì)量的最優(yōu)性質(zhì)在一系列的假設(shè)下得到,當(dāng)這些假設(shè)不成立時(shí),相應(yīng)的特性也不成立,此時(shí),需要退而求其次,獲得在放松后的條件下(通常更符合現(xiàn)實(shí)),更逼近未知常參數(shù)的估計(jì)值。(二)概率因果模式及計(jì)量模型的實(shí)質(zhì)借用大家都熟悉的物理學(xué)例子,炮彈以初速度x和與水平軸成θ角離開地面,從發(fā)射點(diǎn)到落點(diǎn)的距離為d,根據(jù)牛頓定律可以得到(1)這似乎是一個(gè)不受限制的滿足因果律的函數(shù)關(guān)系,其中g(shù)為常參數(shù),即重力加速度:固定發(fā)射角,給定一個(gè)初速度,就得到一個(gè)確定的距離。然后根據(jù)試驗(yàn)得到的三個(gè)數(shù)據(jù)v,θ,d,我們就可以計(jì)算出重力加速度g=d/(v2sin2θ)然而實(shí)踐并非如此簡(jiǎn)單,上述模型只是一個(gè)近似公式,是人類思維的發(fā)明,是一個(gè)理想化模型。這個(gè)理想化模型忽略了空氣阻力、氣壓變化以及初速度和發(fā)射角的不精確性。因此只能在一定限制條件下應(yīng)用,即忽略掉的諸因素在我們可以接受的范圍內(nèi),我們才可以放心地進(jìn)行這種簡(jiǎn)化推測(cè)。但是無(wú)論無(wú)何,在現(xiàn)實(shí)中,我們通過(guò)某次實(shí)驗(yàn)所計(jì)算出的g并不會(huì)正好等于9.8。同樣,如果做很多次實(shí)驗(yàn),根據(jù)每次的實(shí)驗(yàn)結(jié)果來(lái)測(cè)算g,我們會(huì)得到許多不同的g。由于v和θ的不精確,以及炮彈在空氣中受到的擾動(dòng),在一次確定的發(fā)射中,測(cè)定的著彈點(diǎn)與發(fā)射點(diǎn)的距離記為di。這個(gè)di與按(1)式計(jì)算的理論結(jié)果必然存在不一致,換言之,單次實(shí)驗(yàn)的結(jié)果看似確定的,但這種確定是事后的,事前它是不確定的,是隨機(jī)現(xiàn)象。因此,第i次實(shí)驗(yàn)的事后結(jié)果可表達(dá)為:如果我們提出另外一個(gè)問題,既然單次實(shí)驗(yàn)結(jié)果是隨機(jī)的,是事前不能確定的,當(dāng)我們用同一個(gè)大炮在同一地點(diǎn)打出許多有相同初速度和發(fā)射角的炮彈時(shí)(注意,這也只是理想化狀態(tài)),這些炮彈落入第j個(gè)洞的概率是多少?或者問,這些炮彈的落點(diǎn)到發(fā)射點(diǎn)的距離的測(cè)量均值是多少?則這一問題不再有因果答案,只能給出一個(gè)隨機(jī)性的解釋,表現(xiàn)為概率因果模式。在這種情況下,看似隨機(jī)的結(jié)果卻又表現(xiàn)出確定性,其確定性表現(xiàn)為:“如果試驗(yàn)次數(shù)足夠多,平均特性具有高度的確定性”。因此,同一個(gè)問題既可用確定的因果方式也可用概率的方式進(jìn)行分析。有人可能會(huì)說(shuō),這本來(lái)就是個(gè)確定性的問題,盡管我們不知道,但炮彈總有其精確初速度和發(fā)射角,如果我們知道它,就能準(zhǔn)確知道它落入洞的位置,因此,我們之所以需要概率解釋是因?yàn)槲覀儗?duì)一些因素的無(wú)知。對(duì)這一爭(zhēng)議的回答是:科學(xué)家并不關(guān)心什么是真實(shí)的,只關(guān)心什么是他們能夠觀測(cè)到的。這也是后現(xiàn)代關(guān)于真實(shí)的觀點(diǎn)。愛因斯坦說(shuō):“數(shù)學(xué)定律不能百分之百地確實(shí)地用在現(xiàn)實(shí)生活里,能百分之百確實(shí)地用數(shù)學(xué)定律描述的,就不是現(xiàn)實(shí)生活.”,如果我們接受,事實(shí)上我們必須接受,科學(xué)理論不是自然規(guī)律的發(fā)現(xiàn),而是人類思維的發(fā)明,那么,因果性和隨機(jī)之間,或者確定性和或然性之間是沒有抵觸的。由于Y=d在事前無(wú)法預(yù)測(cè),因此它是隨機(jī)的。通常我們將X也視為隨機(jī)的(當(dāng)然在控制實(shí)驗(yàn)中是非隨機(jī)的,但計(jì)量經(jīng)濟(jì)學(xué)處理的社會(huì)經(jīng)濟(jì)變量通常都是非試驗(yàn)非可控的)。而模型的實(shí)質(zhì)是制約因變量Y與自變量X的聯(lián)合分布的集合。模型是滿足假定條件的聯(lián)合分布。在這一章中我們先假設(shè)X為非隨機(jī)的。令得到在上述模型中,X為非隨機(jī)變量,是事先給定的,u和y為隨機(jī)變量,其中y是可觀測(cè)的,而ε也為隨機(jī)變量,但是不可觀測(cè)的,β為未知常參數(shù),是我們想估計(jì)的未知參數(shù)。(三)模擬實(shí)驗(yàn)現(xiàn)在,給定初速度vi,發(fā)射角θ,在同樣的條件下發(fā)射n次炮彈。每一次都會(huì)受到微小因素的干擾而產(chǎn)生誤差ui。這些誤差將服從某種分布,設(shè)其分布的密度函數(shù)為f(u|x=x0),因?yàn)閯t給定初速度x1和發(fā)射角θ,落點(diǎn)距離y1服從以x1和θ為條件的分布f(y|x1,θ)。如右圖如果初速度改變?yōu)閤k,保持發(fā)射角不變,得到不斷改變初速度,將得到若干y對(duì)應(yīng)于x的分布如圖。我們希望通過(guò)觀察(實(shí)驗(yàn))來(lái)確定出兩個(gè)常參數(shù),并獲得這個(gè)函數(shù)。于是,我們固定發(fā)射角做實(shí)驗(yàn),通過(guò)不斷改變初速度(改變10次,x=1-10),得到10000個(gè)數(shù)據(jù)(模擬數(shù)據(jù)bomb。并對(duì)每個(gè)x求y求條件均值E(d|v),得到下表。clearsetobs10000genx=int((_n-0.5)/1000)+1genu=9*invnorm(uniform())geny=x^2/9.8*sin(_pi/6)+utablex,c(meany)format(%5.2f)x
12345678910m(y|x).13.47.76.581.152.532.613.444.435.35下面,我們來(lái)做進(jìn)一步的模擬實(shí)驗(yàn)。首先,作為一個(gè)基準(zhǔn),考慮一種最理想狀態(tài),當(dāng)發(fā)射角為45度,初速度?。?,10)之間的正整數(shù),沒有測(cè)量誤差,重力加速度恒定,空氣阻力等炮彈飛行中的擾動(dòng)產(chǎn)生的條件誤差服從均值為零,方差為0.09的正態(tài)分布,于是可以根據(jù)牛頓定律,可生成一個(gè)總體如下。七、古典線性回歸模型(一)期望與方差先把X看做是非隨機(jī)的,則X為一個(gè)固定的常矩陣,這種情形通常在設(shè)計(jì)實(shí)驗(yàn)中出現(xiàn),比如第一塊地施1kg化肥,第二塊實(shí)驗(yàn)地施2kg化肥,…。當(dāng)X為固定的常數(shù)矩陣時(shí),也為一矩陣,不妨設(shè)為因此有clearmatau=invnormal(uniform(1,8))uniformseed(1)//生成偽隨機(jī)變量的種子X=uniform(2,8)beta=(2,10)y=X*beta:+uC=invsym(X’X)X’b=C*y可見b為一隨機(jī)向量,其期望為要使b為無(wú)偏估計(jì)量,則必須滿足條件Eu=0,即隨機(jī)向量b的方差陣為顯然,要獲得b的方差陣,必須首先假定誤差u的方差,在一個(gè)非常嚴(yán)格的假設(shè),即誤差兩兩不相關(guān),而且同方差的條件下,有(二)估計(jì)量的分布僅假設(shè)誤差的期望和方差還無(wú)法確定最小二乘估計(jì)量b的分布,要獲得其分布,必須對(duì)誤差的分布做出假設(shè)(即限制條件),當(dāng)誤差向量服從正態(tài)分布,并且前述的期望和方差假設(shè)也成立時(shí),因?yàn)檎龖B(tài)分布由期望和方差確定,并且正態(tài)隨機(jī)向量的線性組合仍然服從正態(tài)分布,因此隨機(jī)向量b也服從如下的正態(tài)分布:由于正態(tài)分布具有斷尾性,因此服從正態(tài)分布的隨機(jī)向量,其任意一個(gè)元素也服從正態(tài)分布,(三)t統(tǒng)計(jì)量與T檢驗(yàn)根據(jù)點(diǎn)估計(jì)的值,可以計(jì)算出Y的擬合值將觀察值與擬合值相減,得到的值定義為殘差e(注意與誤差相區(qū)別),即因?yàn)镸為確定的常矩陣,My是樣本的線性組合,因此e實(shí)際上也是一個(gè)估計(jì)量,進(jìn)一步,我們將殘差的平方和除以一個(gè)常參數(shù)σ2,得到顯然,上式也是一個(gè)估計(jì)量,可以證明,該估計(jì)量服從自由度為n-k的卡方分布。證明:證明非常簡(jiǎn)單,因?yàn)橛捎赽j服從均值為βj的正態(tài)分布,根據(jù)t分布的定義,可以得到(四)F統(tǒng)計(jì)量與F檢驗(yàn)在上述估計(jì)量中,只有一個(gè)唯一的未知常參數(shù)βj,而相應(yīng)的t分布卻是唯一確定的,因此可以構(gòu)造出置信區(qū)間,該置信區(qū)間將以一定的可能性能夠?qū)⑽粗?shù)覆蓋在內(nèi)。如果我們假設(shè)模型沒有任何解釋力,即所有的β=0,則可以利用F檢驗(yàn),推理如下:從X為非隨機(jī)變量到X為隨機(jī)變量,只需要將X視為條件,反復(fù)運(yùn)用重期望定理即可得到上述結(jié)論。附:矩估計(jì)與極大似然估計(jì)(一)矩估計(jì)矩法的核心思想:總體矩=樣本矩總體矩,如正態(tài)分布的總體一階原點(diǎn)矩為u,二階中心矩為σ2,二點(diǎn)分布的期望為p,泊松分布的期望為λ。總體矩由隨機(jī)變量的取值及其對(duì)應(yīng)的概率PDF加權(quán)求和得到。樣本矩,對(duì)于IID,均值對(duì)應(yīng)于一階原點(diǎn)矩。由于是IID,而且是簡(jiǎn)單隨機(jī)抽樣,因此,概率高的取值被抽中的可能性高,概率低的被抽中的可能性低,而且其頻率近似等于其概率,因此對(duì)樣本取值依頻率加權(quán)求和得到的結(jié)果,就近似等于期望。^u=-x。另一方面,樣本值的經(jīng)驗(yàn)分布EDF是CDF的一致估計(jì),因此,總體矩=樣本矩。EDF是隨機(jī)變量X的CDF的一致估計(jì)。當(dāng)xi獨(dú)立同分布時(shí),由于隨機(jī)變量Y=I(Xi<x)的期望為F(x),因此,正好為Y的均值,服從大數(shù)定理,所以是F(x)的一致估計(jì)量。矩法估計(jì)當(dāng)然不限于期望=樣本均值,相應(yīng)地還有總體方差=樣本方差;總體K階原點(diǎn)矩=樣本K階原點(diǎn)矩;總體K階中心矩=樣本K階中心矩利用矩法估計(jì)總體參數(shù)時(shí)不需要知道總體的PDF或CDF,只需要知道用未知參數(shù)表達(dá)的總體矩即可,因此具有更廣泛的運(yùn)用性。矩法的一般步驟:從總體矩入手將待估參數(shù)表示成總體矩的函數(shù)θ=g(EX,Var(X))。用樣本矩m和s分別替換g中的總體矩EX=m,Var(X)=s,則估計(jì)值θ*=g(EX,var(X))=g(m,s)=g(x1,x2,…,xn)假設(shè)1:(二)極大似然估計(jì)已知分布類型,不知分布參數(shù)。例:遇到三個(gè)人,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版城市物流配送承包合同3篇
- 電子產(chǎn)品制造安全用品規(guī)定
- 2025個(gè)人租房合同范本標(biāo)準(zhǔn)版
- 食品安全廚師聘用合同模板
- 乙供物資供應(yīng)商質(zhì)量管理體系
- 2025版商鋪轉(zhuǎn)租與新能源技術(shù)應(yīng)用合同范本3篇
- 2025版風(fēng)電項(xiàng)目用地租賃合同3篇
- 2025版蟲草保健品原料供應(yīng)合同2篇
- 2025版冷鏈物流快遞業(yè)務(wù)承包管理合同3篇
- 2024年貨物買賣合同標(biāo)的及權(quán)益說(shuō)明
- 國(guó)有土地上房屋裝修備案申請(qǐng)表
- 遼寧盤錦浩業(yè)化工“1.15”泄漏爆炸著火事故
- 紅黃綠白黑五色食物巧選擇紅黃綠白黑五色健康法
- 辦公樓裝修工程難點(diǎn)、重點(diǎn)分析及對(duì)策
- 動(dòng)物行為學(xué)論文(無(wú)刪減范文8篇),動(dòng)物學(xué)論文
- 社會(huì)工作理論復(fù)習(xí)資料
- 某市自來(lái)水廠工藝設(shè)計(jì)
- 2023年公務(wù)員體檢表
- GB/T 9115-2010對(duì)焊鋼制管法蘭
- GB/T 20882.2-2021淀粉糖質(zhì)量要求第2部分:葡萄糖漿(粉)
- 西南林業(yè)大學(xué)宿舍樓環(huán)評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論