計量經(jīng)濟學(xué)課件教案第四章數(shù)理統(tǒng)計_第1頁
計量經(jīng)濟學(xué)課件教案第四章數(shù)理統(tǒng)計_第2頁
計量經(jīng)濟學(xué)課件教案第四章數(shù)理統(tǒng)計_第3頁
計量經(jīng)濟學(xué)課件教案第四章數(shù)理統(tǒng)計_第4頁
計量經(jīng)濟學(xué)課件教案第四章數(shù)理統(tǒng)計_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四章數(shù)理統(tǒng)計案例4-1:人類天生的統(tǒng)計本能在基因上,我們?nèi)院臀撮_化的土著人很接近。我們信念的形成,充滿著迷信——即使今天也不例外,甚至尤以今天為甚。某一天,原始部落的某個人摸鼻子后不久,天開始下雨,于是他煞費苦心地發(fā)展出一套抓鼻子祈雨的方法。同樣地,我們會把經(jīng)濟的繁榮歸功于中央銀行降低利率。或者一家公司的經(jīng)營成功和新總裁走馬上任有關(guān)。類似風馬牛不相及的事件屢屢被我們扯上聯(lián)系,并導(dǎo)致我們在人生的重要抉擇關(guān)頭步步踏錯,先機盡失。我們所受的教育和文化,騙我們?nèi)ハ嘈趴茖W(xué)和邏輯進入現(xiàn)代生活時,迷信就會自然消除。但是隨著我們的智力與日俱增,隨機現(xiàn)象卻源源不絕而來,我們變得越來越迷信。哈佛大學(xué)心理學(xué)家Skinner做過一個關(guān)老鼠和鴿子的籠子,籠子有個開關(guān),鴿子可以用喙去操作。此外,有個電動裝置會把食物送進籠子里。1948年,他以隨機的方式送食物給非常饑餓的鴿子。隨后他觀察到鴿子表現(xiàn)出相當驚人的行為。它們根據(jù)內(nèi)在根深蒂固的統(tǒng)計機制,發(fā)展出極其復(fù)雜、有如祈雨般的舞蹈行為;有只鴿子會對著籠中特定的一角有規(guī)律地搖頭,另一只鴿子會以逆時鐘方向轉(zhuǎn)頭。幾乎每一只鴿子都發(fā)展出一種與獲取食物聯(lián)結(jié)起來的特別儀式,慢慢地固定到它們心里。有那么一段時間,我迷上了炒股,每天早上搭黃色出租車去證券公司,有一天,不幸卻搭上一輛紅色出租車,司機還不知道他要去的地方,我試著要他從央行門口往南走,但他頑固地再往南多走了一個街區(qū),我被逼得只好利用后門口進入證券公司,那一天,我操作的投資組合賺了很多錢,那是我年輕時最美好的一天。隔天,一切如常,我在校門口等那輛出租車,前一天的紅色出租車和那個頑固的家伙卻不見蹤影。真是不巧,因為我有個無法解釋的念頭,想要謝謝那天他對我做的好事,還想多給他一點錢。我好不容易等到一輛紅色的出租車,上車后我告訴新司機載我繞到證券公司的后門,也就是前一天下車的那個地方。。。。進了公司,迎面有個鏡子,看著自己,發(fā)現(xiàn)仍然裝著昨天那件沾了污漬的襯衣。我體內(nèi)有另一個我,顯然相信從這個入口上樓、裝這件臟衣服、坐與前一天一樣的車、走同樣的入口與股票的市場走勢之間有強烈的因果關(guān)系存在。我為自己的行為舉止像個騙子,猶如扮演別人角色的演員一樣而啞然失笑。有些賭徒相信賭博的結(jié)果和某些身體動作之間有一些不自然的關(guān)聯(lián),據(jù)而發(fā)展出一些扭曲的行為。我出現(xiàn)了所謂的“賭徒的迷信”。雖然細微且難以察覺,卻正在迅速累積。我們的心似乎一直想找出某種統(tǒng)計上的關(guān)聯(lián),在理性上我們知道這種統(tǒng)計關(guān)聯(lián)是騙人的,因為樣本很小。但是這種天生的統(tǒng)計本能,并沒有因為我在假說檢驗上的專長而有所抑制?!{西姆·塔勒布,《隨機致富的傻瓜》,中信出版社概率論是已知總體,即已知DGP或者分布函數(shù),求隨機變量取特定值或者落在特定區(qū)域內(nèi)的可能性。而數(shù)理統(tǒng)計是未知DGP或分布函數(shù),面對一個黑箱,根據(jù)從黑箱中取出的樣本來推測黑箱中的DGP(或分布函數(shù)類型以及未知參數(shù)值)。f(x)f(x)案例4-2:統(tǒng)計小史1085年,《末日審判》(Domesday)統(tǒng)計了田地名稱、擁有者、面積、可耕地面積、牛群數(shù)量、土地價值…….,但國王威廉沒有將這些數(shù)據(jù)用于任何地方,900年來,他一直是研究的對象。英國的格朗特(Graunt,1620-1674)對這樣一個問題很感興趣“誰活著?誰死了,為什么死了?”,他研究了死亡公告,分析了1604-1661年的數(shù)據(jù)(<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>),書中寫道:“大多數(shù)人只是找找奇怪的事,看看離奇的死亡,僅此而已”。謀殺很受關(guān)注,但是格發(fā)現(xiàn),在229250例死亡中,只有86人死于謀殺,謀殺不是死亡的主要原因。人們還認為,“瘟疫伴隨著一個新王朝的開始”,格證明這種看法是錯誤的。由于他的開創(chuàng)性貢獻,國王查理三世親自舉薦他加入皇家學(xué)會。哈雷預(yù)言哈雷慧星將于1758年返回,他對天文著迷,個人擁有的儀器就足以成立一個天文臺。他沒畢業(yè)就到南大西洋的一個小島上,準確地測量了300多顆恒星,還描繪了第一張世界海洋地圖,標明了風向,其中包含的信息對每一位船長都有重要價值。他提問“40歲的男人再活7年的概率是多大”?并編出了第一張生命表,還資助牛頓出版了科學(xué)史上最有影響的著作《自然哲學(xué)的數(shù)學(xué)原理》。費希爾(Fisher,1890-1962)是現(xiàn)代統(tǒng)計學(xué)的奠基人,1925年出版《研究工作者用的統(tǒng)計方法》,提出了隨機化的實驗設(shè)計。休哈特(Shewhart,1891-1967)提出質(zhì)量控制,戴明(Deming)將其發(fā)揚光大。斯諾(Snow,1813-1858)將統(tǒng)計應(yīng)用于流行病學(xué),發(fā)現(xiàn)了霍亂與水源的關(guān)系。一、問題的提出天安門城樓到底有多高,其“真實”的高度究竟是多少?恐怕沒有人能夠給出完全精確的答案,即使給出來也未必令人信服。盡管實踐是檢驗真理的唯一標準,可是如果我們?nèi)y量,每次測量的結(jié)果都不同,又應(yīng)該相信哪一次的結(jié)果呢?測量很多很多次是否有助于我們算得更精確的高度值?又如何來處理這很多次的測量結(jié)果,以便最好地逼近真實高度呢?上述問題可以轉(zhuǎn)化為如下數(shù)學(xué)模型:假設(shè)1(S1):其中為天安門城樓的高度,當然是一個客觀存在,是有唯一精確值的未知數(shù)。y為測量結(jié)果,u稱為誤差,y和u都是隨機變量,盡管一次測量完成后,我們知道y的值,但測量之前卻不可能知道。u是我們的理論構(gòu)造,在真實世界中是不存在的。顯然,只有y是能夠觀察到的,而真實高度與誤差卻無法觀察到的,核心問題是:如何用觀察到的y來求得未知的?總體是任何一種定義良好的一種對象的全體,如全部人民大學(xué)的學(xué)生不是一個定義良好的總體,而全部人民大學(xué)學(xué)生的高考成績是一個定義良好的總體。天門安城樓高度的所有測量結(jié)果也是一個定義良好的總體(無限總體)??傮w也是一種數(shù)據(jù)生成機制(DGP,datageneratingprocess),如天門安城樓高度的測量結(jié)果由這一機制生成,由于未知,所以這個DGP仍然是一個黑箱,計量分析的任務(wù)就是打開這個黑箱。二、樣本最容易理解的抽樣是從有限總體中抽取一個樣本,比如從100個混有紅球和黑球的暗箱中摸出8個球來。有限樣本的抽樣又分為放回和不放回兩種,如果放回,則同一個球可能被抽中多次。從無限總體中抽取一個樣本可被視為某個數(shù)據(jù)生成過程(DGP)的一次實現(xiàn)。比如天門安城樓高度的測量結(jié)果y是一個無限總體,某一次的測量結(jié)果可視為按照公式所確定的數(shù)據(jù)產(chǎn)生機制生成的一個數(shù)據(jù)yi。相應(yīng)地n次測量的結(jié)果可被視為一個n維隨機向量(樣本)。給定樣本容量n(即每次抽取n個觀察值),不同的樣本中Y的取值不同,下表是m組樣本的情形。表格4SEQ表格\*ARABIC\s11:隨機抽樣:抽得任何一個樣本的概率相同yy1y2…yn第一組樣本y1y11y12…y1n第二組樣本y1y21y22…y2n………第m組樣本ymym1ym2…ymn樣本聯(lián)合概率密度:已知隨機變量Y,從該總體中隨機的取一個容量為n的樣本,其聯(lián)合概率密度為fJ(Y1,Y2,Y3,…,Yn)。同分布:指總體服從同一種分布。想象一下,箱子中既有不同重量的紅球(假設(shè)重量服從正態(tài)分布f1(Y)),也有不同重量的綠球(假設(shè)其重量服從指數(shù)分布f2(Y)),于是從這個箱子里隨機抽取的球不是同分布的。如果箱子中只有紅球,則是同分布的。簡單隨機抽樣:是指每個樣本被抽取的可能性等同,也就是事前不知道會抽中哪個樣本,每個樣本都有同樣的可能被抽中,否則,就不能算做隨機抽樣。想像上面的例子,不論是很重的球還是很輕的球,也不論是紅球還是綠球,更不論服從什么分布,反正每個球被抽中的概率都一樣。比如箱中共有100個球,則每個球被取出的可能都為0.01。再如街頭攔訪,老出門在外的或老在家的人被抽中的概率就不一樣,是一個明顯的非隨機樣本。獨立:獨立,指的是各個試驗或觀察得到的樣本間是相互獨立的。獨立和隨機是兩回事,隨機樣本并不一定相互獨立,而相互獨立的兩個樣本并不一定隨機。獨立性要求每一次取球的結(jié)果不影響另一次取球的結(jié)果,如果取出一個紅球,下一次總是又取出一個紅球,則不獨立。同樣,如果取出一個很重的球,下一次總?cè)〕鲆粋€很輕的球,再下一次又取出一個很重的球,這種樣本也不獨立。獨立同分布:從服從同一分布的總體中隨機獨立地抽取樣本。獨立同分布樣本的聯(lián)合概率密度滿足公式:每一個被抽中的樣本都滿足我們的模型,n個樣本令則三、最小二乘估計OLS(一)最小二乘估計量取得樣本后,我們有了多個數(shù)據(jù),如何處理這些數(shù)據(jù)呢?同樣的問題曾困惑著18世紀和19世紀初的許多天文學(xué)家和數(shù)學(xué)家。那個時代的人熱衷于測量天體(比如慧星)的軌道長度,他們在很多地方建立天文臺,反復(fù)測量,得到大量的數(shù)據(jù)?!懊看螠y量都有誤差,次數(shù)越多,誤差累積越多,但把次數(shù)減少并不是解決問題的辦法,用什么辦法來恰當?shù)厥褂么罅康臄?shù)據(jù)呢”?勒讓德(Legendre,1752-1833)解決了如何從數(shù)據(jù)中得出準確結(jié)論的問題,他提出了“最小二乘法”。而著名的數(shù)學(xué)家高斯(1777-1855)也聲稱他發(fā)明了最小二乘法。最小二乘法的核心思想是:使樣本點與總體參數(shù)的距離最小。這種距離通常以平方和來表示,因此稱為最小二乘估計。根據(jù)這個式子,我們就可以計算出b稱為β的最小二乘估計量(OLS)。根據(jù)最小二乘法估計原理,我們得到如下的估計量:上式顯然是一個函數(shù),是樣本隨機變量的函數(shù)g(Y1,Y2,…,Yn)。實際上,估計量是一個處理隨機樣本的法則,這個法則是抽樣之前就已制定好的,不管實際上得到的是什么數(shù)據(jù),這個法則都不變。當這個法則改變了,我們就得到另一個估計量,比如殘差e也是一個估計量.殘差的平方和是另一個估計量既然估計量是隨機變量的函數(shù),它是一個隨機變量,它的隨機性由樣本決定,隨著樣本而變,代入不同的樣本,同一個估計量會得到不同的估計值。估計量與估計值sysuseauto,clearsample10sumprice反復(fù)執(zhí)行上面的三行命令,每一次我們都得到不同的均值。同樣,反復(fù)執(zhí)行下述三行命令,每一次我們也得到不同的估計值drawnormu,n(8)cleargy=10+uregy(二)線性無偏估計量對同一個樣本,可以定義無窮多的估計量,這些估計量僅依賴于總體的性質(zhì)和定義估計量的函數(shù),我們不能控制總體的特征,它是由客觀分布規(guī)律所決定的,而客觀分布規(guī)律又是由自然規(guī)律或社會力量來決定,不是我們所能控制的。但是我們可以選擇定義估計量的函數(shù)(加工處理樣本數(shù)據(jù)的方法)。問題是我們該選擇什么樣的函數(shù)來處理觀察到的樣本呢?潛在的函數(shù)既可以是線性的也可以是非線性的,但線性的往往比較容易處理。線性估計量是樣本的線性函數(shù)(組合)。比如對樣本Y,給定任意非隨機矩陣A,AY便是一個線性估計量(線性意味著對樣本進行加權(quán)求和)。其次,既然估計量是隨機變量,它也就具有期望和方差等數(shù)字特征,而估計量的期望既取決于樣本特征,也取決于我們所選擇的函數(shù)形式(數(shù)據(jù)處理法則)。無偏估計量是一類特殊的估計量,無偏估計量的期望等于總體參數(shù)真值。注意估計量的無偏性評價的是估計法則的特性,而不是特定樣本。再次重申,一個估計量的無偏性和可能偏誤的大小依賴于Y的分布和函數(shù)g(),通常Y的分布是我們不能選擇的,但法則g()的選擇操縱在我們手中,如果我們想要得到一個無偏估計量,我們就要對g()做相應(yīng)的選擇。無偏性反映的是有限樣本的性質(zhì),它可以理解為窮盡所有可能的抽樣,然后利用每個樣本按照g()計算出估計值,各估計值依概率(樣本出現(xiàn)的概率)加權(quán)求和,得到的期望應(yīng)等于總體參數(shù)真值。線性無偏估計量是同時滿足線性和無偏性的估計量。在測量的例子中,估計量b是線性的嗎?是無偏估計量嗎?是線性無偏估計量嗎?如果不是,需要滿足什么條件才是一個線性無偏估計量呢?b是一個線性估計量,因為如果要使b成為一個無偏估計量,還必須滿足假設(shè)2(S2):即當時,b為線性無偏估計量。如果假設(shè)不成立,則b是有偏的,在什么情況下,誤差為零的假設(shè)不成立呢?比如測量時用的工具并不準確,總是偏大。再比某測量員總是傾向于高估測量結(jié)果等。(三)有效估計量除了上述線性無偏估計量外,考慮另一個線性無偏估計量,因為顯然是線性無偏估計量,我們又如何在這兩個法則中間選擇最好的一個呢?期望一樣,我們就進一步比較估計量的方差,并選擇方差最小的那一個。如果兩個無偏估計量W1和W2,總有Var(W1)<Var(W2),則稱W1比W2相對有效。如果不限于考慮無偏估計量,那么比較方差大小就毫無意義。比如,無論取到什么樣本,我們都設(shè)定一個等于0的估計量,其方差最小,但毫無意義。同時滿足線性、無偏、最小方差的估計量稱為最小方差線性無偏估計量(BLUE)。假設(shè)3(S3):,則證明:在假設(shè)1和假設(shè)2下,OLS估計量b為BLUE估計量盡管得到了但是,由于未知,仍然無法求出具體的值,為了得到的無偏估計,考慮殘差平方和。因故,無偏估計為由于,估計量b的方差的無偏估計為其平方根稱為標準誤se注意比較下面的五個概念:總體方差:Var(Y)=均方差(meansquarederror,MSE)定義為:MSE(b)=E[(b-β)2=Var(b)+[Bias(b)]2=Var(b)+[E(b)-β]2樣本方差:S是樣本的隨機變量估計量方差:既然估計量b是隨機變量,它也有方差,其方差為/n估計量方差的估計:是對估計量b的方差的一個估計,為隨機變量。(四)抽樣分布既然估計量是一個隨機變量,它就有相應(yīng)的分布函數(shù),稱之為抽樣分布。b服從什么分布呢?假設(shè)4(S4):由于均值相當于隨機向量的一個函數(shù)(線性組合)。組合之后,均值仍然為隨機的,而且成為一個隨機變量。由于正態(tài)隨機變量的線性組合仍然服從正態(tài)分布。因此b也服從正態(tài)分布,正態(tài)分布由均值和方差確定,故估計量的抽樣分布下面的例題,首先生成一個均值為0,標準差為1的隨機誤差項,然后生成Y,再抽取8個樣本,計算其均值。重復(fù)上述程序1000次,得到1000個估計值,做這些估計值的直方圖,可以發(fā)現(xiàn),它服從正態(tài)分布。captprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyend***將上述抽樣試驗進行1000次,得到1000個均值和標準差simulate_b,reps(1000):sdsum//比較兩者的均值和標準差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))(五)誤差方差的估計量及其分布是一個估計量,自然是一個隨機變量,那么這個隨機變量服從什么分布呢?clearcaptprogdropsdprogsddrawnormu,n(8)clear//8個期望為10的正態(tài)隨機樣本gy=10+uregyscalars=7*(e(rmse))^2end***將上述抽樣試驗進行1000次,得到1000個均值和標準差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))(七)T估計量在上面的分布中,β和σ是未知的常參數(shù),因而仍然無法確定估計量b的具體分布。怎么辦呢?能否在σ未知的情況下得到某個具體的分布?辦法是構(gòu)造t值,t值是一個含有未知常參數(shù)β的估計量(因為b和S都是樣本的函數(shù)),而且t值的分布函數(shù)僅有樣本容量n唯一確定。注意到t值實際上也是樣本的一個函數(shù),然而當總體服從正態(tài)分布時,t值成為一個僅與樣本容量有關(guān)的統(tǒng)計量。注意到上式中僅有一個未知常參數(shù)β,我們把這種統(tǒng)計量稱為樞柚量。四、區(qū)間估計區(qū)間估計的含義是:總體參數(shù)β(真值)被由樣本和置信水平構(gòu)造的區(qū)間覆蓋住的概率。根據(jù)一個樣本的觀察值給出總體參數(shù)的估計范圍,并給出總體參數(shù)落在這一區(qū)間的概率t分布僅有一個參數(shù),即樣本容量n,當n的大小被確定,分布即被決定。隨機變量t落在(-∞,-t0.025)和(+t0.025,+∞)內(nèi)的概率為0.05,t落在(-t0.025,+t0.025)的概率為0.95。而t由n,b,se及β四個變量所決定。給定樣本,隨樣本變化,b和se會隨之變化,而β為未知參數(shù),但β落在區(qū)間的概率為0.95。大致意思是如果隨機抽取樣本容量相同(均為n)的樣本很多很多次,每次都計算出相應(yīng)的se,b,代入上式計算出許許多多的區(qū)間,則所有區(qū)間中約有95%將包含總體參數(shù)β,有5個不包含β。真值約有95次穿過區(qū)間,但約有5次在區(qū)間兩個端點之外。對某一次抽樣來說,可信區(qū)間一旦形成,它要么包含總體參數(shù),要么不包含總體參數(shù),二者必居其一,無概率可言,因此所謂95%的可信度是針對可信區(qū)間的構(gòu)建方法而言的。區(qū)間估計與點估計不同,它尋求一個區(qū)間,該區(qū)間以一定的概率保證真正的總體參數(shù)值包含在其中,當然,對于一個特定的樣本,它可能包含參數(shù)真值,也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一個標準差o=10的正態(tài)隨機變量樣本,樣本容量為100*/gY=10+uquietlyregyend***將上述抽樣試驗進行100次,得到100個樣本均值mean和標準誤simulate_b_se,reps(100)nodots:bbgn=_n*在總體方差未知的前提下,用樣本標準差sd替代,需要借助t統(tǒng)計量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察總體均值是否在子樣本的95%置信區(qū)間內(nèi),如不在則標記為1,否則為零gtsign=(tlow<5&thigh>5)*統(tǒng)計沒有包括總體均值的子樣本95%置信區(qū)間個數(shù)tabletsign*圖示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中,我們只進行一次抽樣,只構(gòu)造出一個區(qū)間,并推測這一個區(qū)間有95%的可能屬于包含總體參數(shù)的區(qū)間簇,有5%的可能屬于不包含總體參數(shù)的區(qū)間簇。五、假設(shè)檢驗真正的總體參數(shù)β是一個常數(shù),但具體等于多少,卻是未知的。我們假設(shè)總體參數(shù)等于一個值β0=10,這個值是我們假設(shè)出來的,它也是一個常數(shù)。由于不知道β的取值,我們用猜測出來的β0替代β,于是有原假設(shè)(H0:β=β0),假設(shè)值β0可能正好等于原總體的參數(shù)值β,也可能不等。想一想,你能一次性地準確猜測出真正的總體值嗎?另外,注意到在原假設(shè)與對立假設(shè)中,并不涉及到估計量。利用估計量b(隨機變量)和假設(shè)值β0構(gòu)造一個T估計量(隨機變量),這個T估計量小于臨界值的概率為注意:上式中真正服務(wù)t分布的不是而是。如果原假設(shè)恰好成立,也即當原假設(shè)為真(β=β0)時,有λ=0,于是是隨機變量落在左邊的概率,由于臨界值意味著其左邊的面積為,故當取值較小時(通常為0.1、0.05或0.01),意味著隨機變量出現(xiàn)在右邊的概率就很小。當我們抽取一個特定的樣本,計算后得到一個估計值b*(注意區(qū)別β,β0,b,b*),這個估計值b*是估計量b(為隨機變量)的一個實現(xiàn),是可以計算出具體取值的,如果出現(xiàn)在右邊,意味著在一次取樣中,不太可能出現(xiàn)的小概率事件出現(xiàn)了,于是我們傾向于認為原假設(shè)不對,拒絕(H0:β=β0),也就是認為。即使我們的假設(shè)是正確的,即β確實等于β0,但因為我們只抽得了一個樣本,并利用這個樣本計算出T值,這個T值有的可能出現(xiàn)在的右邊。但我們卻認這是一個小概率事件而拒絕原假設(shè),認為β≠β0,這一拒絕是錯誤的選擇,錯誤緣于抽樣的偏誤,使我們可能恰好在一次抽樣中得到一個過大的T值,從而否定正確的原假設(shè),這種錯誤叫做棄真錯誤,但是在原假設(shè)為真的前提下,發(fā)生這種錯誤的可能性只有5%。在STATA統(tǒng)計軟件中,默認的β0=0,根據(jù)特定樣本計算出來的T值為其中的“*”號表示根據(jù)某一個被抽取的樣本計算得到的估計值。以這個T*值為臨界點,服從t(n-1)分布的隨機變量T落入兩端的概率稱為P值,即第二類錯誤由于原假設(shè)只是我們的一個假設(shè),我們并不真正知道總體參數(shù)的真實值,因此可能從一開始,我們的假設(shè)就錯誤了(即)。由于這個錯誤的假設(shè),我們會犯取偽的錯誤。就是作出正確判斷(即H0為真時接受H0,取真)的概率,此時有,其中為棄真的概率。(真真)而當假設(shè)為錯誤,即真值不等于假設(shè)值時,即時為犯第II類錯誤(納偽,即原假設(shè)為誤卻接受原假設(shè))的概率。則為作出正確判斷的概率(棄偽,即原假設(shè)為假,拒絕原假設(shè)的概率),又稱為檢驗的功效。真實情形不拒絕,認為拒絕原假設(shè),認為棄真錯誤納偽錯誤檢驗的功效情形1:總體均值已知,為u=10。但我們假裝不知道,卻做出了對總體均值正確的原假設(shè),認為它等于u0=10,則抽樣進行假設(shè)檢驗如下drawnormy,n(100)m(10)sds(10)dclear*生成一個均值u=10,標準差o=10的正態(tài)隨機變量,作為研究總體quietlysumydi"從樣本計算t統(tǒng)計值為:"(r(mean)-10)/(sqrt(100)*r(sd))di"根據(jù)t統(tǒng)計量臨界值為:"aserrorinvttail(99,0.025)diasresult"對這次實驗,拒絕還是接受?"由于我們通常只取一次樣,所以有可能碰巧得到的樣本正好是導(dǎo)致我們拒絕真的原假設(shè)的樣本。這時我們就會犯錯誤。然而,棄真錯誤的可能性比較小。在100次這樣的抽樣研究中,大概有5次左右。將上述試驗進行100次,統(tǒng)計一下有多少次拒絕,多少次接受?captprogdrophproghdrawnormy,n(100)m(10)sds(10)dclearquietlysumyscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果樣本統(tǒng)計量(t)值大于臨界值,則拒絕原假設(shè)一次jud=1,否則為0endsimulateref,reps(100):htab_sim//其中的1表示在100次中拒絕原假設(shè)的次數(shù)。情形2:總體均值已知,為u=10。但我們假裝不知道,并做出了對總體均值錯誤的原假設(shè),如認為它等于u0=5,則抽樣進行假設(shè)檢驗如下captprogdrophproghdrawnormy,n(100)m(10)sds(10)dclearquietlysumyscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):htab_sim這時,我們100次地拒絕了原假設(shè),認為原總體的均值不可能為5。顯著性:你和朋友來進行橫跨西伯利亞的越野車比賽,一個月后,你以一秒之差擊敗他,顯然你不能吹噓自己比他快。你可能受助于某些東西,或者只是隨機因素使然,別無其他。那一秒不夠顯著,沒有辦法據(jù)此得出什么結(jié)論?!白孕熊囼T手A比B優(yōu)秀,因為他平常吃菠菜,而B吃豆腐,所在A在3000里的比賽中比B快了1秒”。clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=rows(y)//①樣本容量Numberofobsndf=n-1//自由度,dfC=invsym(J'J)*J'b=C*yb//②回歸系數(shù)Coef.P=J*invsym(J'J)*J'M=I(n)-Pe=y-J*be'e//殘差平方和,Residualrmse=sqrt(e'e/df)//③誤差標準差RootMSErmsese=rmse/sqrt(n)//④標準誤Std.Err.set=b/se//t值,ttp=ttail(n-1,t)//p值,P>|t|pb-se*invttail(n-1,0.025)//95%置信區(qū)間,[95%Conf.Interval]b+se*invttail(n-1,0.025)st_matrix("y",y)endsvmatyregy六、矩估計與極大似然估計(一)矩估計矩法的核心思想:總體矩=樣本矩總體矩,如正態(tài)分布的總體一階原點矩為u,二階中心矩為σ2,二點分布的期望為p,泊松分布的期望為λ??傮w矩由隨機變量的取值及其對應(yīng)的概率PDF加權(quán)求和得到。樣本矩,對于IID,均值對應(yīng)于一階原點矩。由于是IID,而且是簡單隨機抽樣,因此,概率高的取值被抽中的可能性高,概率低的被抽中的可能性低,而且其頻率近似等于其概率,因此對樣本取值依頻率加權(quán)求和得到的結(jié)果,就近似等于期望。^u=-x。另一方面,樣本值的經(jīng)驗分布EDF是CDF的一致估計,因此,總體矩=樣本矩。EDF是隨機變量X的CDF的一致估計。當xi獨立同分布時,由于隨機變量Y=I(Xi<x)的期望為F(x),因此,正好為Y的均值,服從大數(shù)定理,所以是F(x)的一致估計量。矩法估計當然不限于期望=樣本均值,相應(yīng)地還有總體方差=樣本方差;總體K階原點矩=樣本K階原點矩;總體K階中心矩=樣本K階中心矩利用矩法估計總體參數(shù)時不需要知道總體的PDF或CDF,只需要知道用未知參數(shù)表達的總體矩即可,因此具有更廣泛的運用性。矩法的一般步驟:從總體矩入手將待估參數(shù)表示成總體矩的函數(shù)θ=g(EX,Var(X))。用樣本矩m和s分別替換g中的總體矩EX=m,D(X)=s,則估計值θ*=g(EX,D(X))=g(m,s)=g(x1,x2,…,xn)假設(shè)1:(二)極大似然估計已知分布類型,不知分布參數(shù)。例:遇到三個人,他們每個月的消費分別是500元,400元,450元,問這三個人是著名歌星還是普通的大學(xué)生?使聯(lián)合概率密度最大化,當獨立抽樣時,有對如上圖的正態(tài)分布,由于獨立隨機地從同一個分布中抽樣,因此,取出的樣本中靠近均值u的球最多,取得極端重于u和輕于u的球的可能性都很小。于是把這些球?qū)?yīng)的概率乘起來,積也最大。然后,當用左邊的總體密度函數(shù)來計算聯(lián)合概率時,由于被抽中的球都相對于u1而言過重,都分布在最右端,因此聯(lián)合概率很小。同樣,若為右邊的總體函數(shù),抽出的球都集中在圖的左邊,聯(lián)合概率也很小。因此,我們猜想,最可能的總體是聯(lián)合概率最大的中間的哪個總體。對數(shù)似然值極大似然的估計原理可以由下面的程序得到說明。我們首先生成10個服從正態(tài)分布的總體,每個總體的均值都不同,依次為0,1,2,3,4,5,6,7,8,9。方差相同,均為1。然后我們隨機地取出一個總體,從中抽出8個樣本,因為事先不知道是從哪一個總體中抽出來的,所以我們分別用已知的10個總體參數(shù)值代入似然函數(shù),計算出10個似然函數(shù)值,取其中最大的似然值,認為該樣本是從相應(yīng)的總體中取出的(從而聯(lián)合概率密度也最大化)。然后我們讓計算機告訴我們它是從第幾個總體中取樣的,并與我們的判斷進行對比。captprogdropmleprogmle/*生成10個均值不同、方差均為1的正態(tài)總體,每個總體取8個樣本*/drawnormdoublex0-x9,n(8)m(0,1,2,3,4,5,6,7,8,9)clearglobali=int(10*uniform())//設(shè)定一個隨機數(shù),用于隨機取出一個總體forvj=0/9{glnf`j

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論