![數(shù)理統(tǒng)計(研究生)全冊配套課件3_第1頁](http://file4.renrendoc.com/view14/M0A/33/1E/wKhkGWbYOpWABJ3PAADgEenDpVo489.jpg)
![數(shù)理統(tǒng)計(研究生)全冊配套課件3_第2頁](http://file4.renrendoc.com/view14/M0A/33/1E/wKhkGWbYOpWABJ3PAADgEenDpVo4892.jpg)
![數(shù)理統(tǒng)計(研究生)全冊配套課件3_第3頁](http://file4.renrendoc.com/view14/M0A/33/1E/wKhkGWbYOpWABJ3PAADgEenDpVo4893.jpg)
![數(shù)理統(tǒng)計(研究生)全冊配套課件3_第4頁](http://file4.renrendoc.com/view14/M0A/33/1E/wKhkGWbYOpWABJ3PAADgEenDpVo4894.jpg)
![數(shù)理統(tǒng)計(研究生)全冊配套課件3_第5頁](http://file4.renrendoc.com/view14/M0A/33/1E/wKhkGWbYOpWABJ3PAADgEenDpVo4895.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)理統(tǒng)計(研究生)全冊配套課件3數(shù)理統(tǒng)計數(shù)理統(tǒng)計統(tǒng)計學第一章緒論§1-1
什么是數(shù)理統(tǒng)計§1-2數(shù)理統(tǒng)計幾個基本概念§1-3
抽樣分布學習目標1.理解數(shù)理統(tǒng)計的涵義2.理解了解統(tǒng)計研究對象的特點3.了解統(tǒng)計研究的基本環(huán)節(jié)4.了解統(tǒng)計學的產(chǎn)生與發(fā)展過程5.重點掌握數(shù)理統(tǒng)計的基本概念與抽樣分布§1-1
什么是數(shù)理統(tǒng)計一、統(tǒng)計(Statistics)的涵義我們先從數(shù)理統(tǒng)計學開始,數(shù)理統(tǒng)計學是研究收集數(shù)據(jù)、分析數(shù)據(jù)并據(jù)以對所研究的問題作出一定的結(jié)論的科學和藝術(shù)。數(shù)理統(tǒng)計學所考察的數(shù)據(jù)都帶有隨機性(偶然性)的誤差。這給根據(jù)這種數(shù)據(jù)所作出的結(jié)論帶來了一種不確定性,其量化要借助于概率論的概念和方法。數(shù)理統(tǒng)計學與概率論這兩個學科的密切聯(lián)系,正是基于這一點。Statistics:
thescienceofcollecting,analyzing,presenting,andinterpretingdata.(不列顛百科全書)
統(tǒng)計學起源于收集數(shù)據(jù)的活動,小至個人的事情,大至治理一個國家,都有必要收集種種有關的數(shù)據(jù),如在我國古代典籍中,就有不少關于戶口、錢糧、兵役、地震、水災和旱災等等的記載?,F(xiàn)今各國都設有統(tǒng)計局或相當?shù)臋C構(gòu)。當然,單是收集、記錄數(shù)據(jù)這種活動本身并不能等同于統(tǒng)計學這門科學的建立,需要對收集來的數(shù)據(jù)進行排比、整理,用精煉和醒目的形式表達,在這個基礎上對所研究的事物進行定量或定性估計、描述和解釋,并預測其在未來可能的發(fā)展狀況。例如根據(jù)人口普查或抽樣調(diào)查的資料對我國人口狀況進行描述,根據(jù)適當?shù)某闃诱{(diào)查結(jié)果,對受教育年限與收入的關系,對某種生活習慣與嗜好(如吸煙)與健康的關系作定量的評估。根據(jù)以往一般時間某項或某些經(jīng)濟指標的變化情況,預測其在未來一般時間的走向等,做這些事情的理論與方法,才能構(gòu)成一門學問——數(shù)理統(tǒng)計學的內(nèi)容。
這樣的統(tǒng)計學始于何時?恐怕難于找到一個明顯的、大家公認的起點。一種受到某些著名學者支持的觀點認為,英國學者葛朗特在1662年發(fā)表的著作《關于死亡公報的自然和政治觀察》,標志著這門學科的誕生。中世紀歐洲流行黑死病,死亡的人不少。自1604年起,倫敦教會每周發(fā)表一次“死亡公報”,記錄該周內(nèi)死亡的人的姓名、年齡、性別、死因。以后還包括該周的出生情況——依據(jù)受洗的人的名單,這基本上可以反映出生的情況。幾十年來,積累了很多資料,葛朗特是第一個對這一龐大的資料加以整理和利用的人,他原是一個小店主的兒子,后來子承父業(yè),靠自學成才。他因這一部著作被選入當年成立的英國皇家學會,反映學術(shù)界對他這一著作的承認和重視。圖1英國約克大學葛朗特圖2
帕齊利
這是一本篇幅很小的著作,主要內(nèi)容為8個表,從今天的觀點看,這只是一種例行的數(shù)據(jù)整理工作,但在當時則是有原創(chuàng)性的科研成果,其中所提出的一些概念,在某種程度上可以說沿用至今,如數(shù)據(jù)簡約(大量的、雜亂無章的數(shù)據(jù),須注過整理、約化,才能突出其中所包含的信息)、頻率穩(wěn)定性(一定的事件,如“生男”、“生女”,在較長時期中有一個基本穩(wěn)定的比率,這是進行統(tǒng)計性推斷的基礎)、數(shù)據(jù)糾錯、生命表(反映人群中壽命分布的情況,至今仍是保險與精算的基礎概念)等。
葛朗特的方法被他同時代的政治經(jīng)濟學家佩蒂引進到社會經(jīng)濟問題的研究中,他提倡在這類問題的研究中不能尚空談,要讓實際數(shù)據(jù)說話,他的工作總結(jié)在他去世后于1690年出版的《政治算術(shù)》一書中。
圖4:高斯
當然,也應當指出,他們的工作還停留在描述性的階,不是現(xiàn)代意義下的數(shù)理統(tǒng)計學,那時,概率論尚處在萌芽的階段,不足以給數(shù)理統(tǒng)計學的發(fā)展提供充分的理論支持,但不能由此否定他們工作的重大意義,作為現(xiàn)代數(shù)理統(tǒng)計學發(fā)展的幾個源頭之一,他們以及后續(xù)學者在人口、社會、經(jīng)濟等領域的工作,特別是比利時天文學家兼統(tǒng)計學家凱特勒19世紀的工作,對促成現(xiàn)代數(shù)理統(tǒng)計學的誕生起了很大的作用。
數(shù)理統(tǒng)計學的另一個重要源頭來自天文和測地學中的誤差分析問題。早期,測量工具的精度不高,人們希望通過多次量測獲取更多的數(shù)據(jù),以便得到對量測對象的精度更圖3拉普拉斯
高的估計值。量測誤差有隨機性,適合于用概率論即統(tǒng)計的方法處理,遠至伽利略就做過這方面的工作,他對測量誤差的性態(tài)作了一般性的描述,法國大數(shù)學家拉普拉斯曾對這個問題進行了長時間的研究,現(xiàn)今概率論中著名的“拉普拉斯分布”,即是他在這研究中的一個產(chǎn)物,這方面最著名且影響深遠的研究成果有二:一是法國數(shù)學家兼天文家勒讓德19世紀初(1805)在研究慧星軌道計算時發(fā)明的“最小二乘法”,他在估計過巴黎的子午線長這一工作中,曾使用這個方法?,F(xiàn)今著作中把這一方法的發(fā)明歸功于高斯,但高斯使用這一方法最早見諸文字是1809年,比勒讓德晚。一種現(xiàn)在逐步取得公認——這項發(fā)明系由二人獨立做出,看來使比較妥當?shù)?。另外一個重要成果是德國大學者高斯1809年在研究行星繞日運動時提出用正態(tài)分布刻畫測量誤差的分布。正態(tài)分布也常稱為高斯分布,其曲線是鐘形,極象頤和園中玉帶橋那樣的形狀,故有時又稱為“鐘形曲線”,它反映了這樣一種極普通的情況:天下形圖4:高斯圖5:連續(xù)型隨機變量
天下形形色色的事物中,“兩頭小,中間大”的居多,如人的身高,太高太矮的都不多,而居于中間者占多數(shù)——當然,這只是一個極粗略的描述,要作出準確的描述,須動用高等數(shù)學的知識。正是其數(shù)學上的特性成為其廣泛應用的根據(jù)。
正態(tài)分布在數(shù)理統(tǒng)計學中占有極重要的地位,現(xiàn)今仍在常用的許多統(tǒng)計方法,就是建立在“所研究的量具有或近似地具有正態(tài)分布”這個假定的基礎上,而經(jīng)驗和理論(概率論中所謂“中心極限定理”)都表明這個假定的現(xiàn)實性,現(xiàn)實世界許多現(xiàn)象看來是雜亂無章的,如不同的人有不同的身高、體重。大批生產(chǎn)的產(chǎn)品,其質(zhì)量指標各有差異??磥砗翢o規(guī)則,但它們在總體上服從正態(tài)分布。這一點,顯示在紛亂中有一種秩序存在,提出正態(tài)分布的高斯,一生在多個領域里面有不少重大的貢獻,但在德國10馬克的有高斯圖像的鈔票上,單只畫出了正態(tài)曲線,以此可以看出人們對他這一貢獻評價之高。20世紀以前數(shù)理統(tǒng)計學發(fā)展的一個重要成果,是19世紀后期由英國遺傳學家兼統(tǒng)計學家高爾頓發(fā)起,并經(jīng)現(xiàn)代統(tǒng)計學的奠基人之一K·皮爾遜和其他一些英國學者所發(fā)展的統(tǒng)計相關與回歸理論。所謂統(tǒng)計相關,是指一種非決定性的關系如人的身高X與體重Y,存在一種大致的關系,表現(xiàn)在X大(?。r,Y也傾向于大(?。?,但非決定性的:由X并不能決定Y?,F(xiàn)實生活中和各種科技領域中,這種例子很多,如受教育年限與收入的關系,經(jīng)濟發(fā)展水平與人口增長速度的關系等,都是屬于這種性質(zhì),統(tǒng)計相關的理論把這種關系的程度加以量化,而統(tǒng)計回歸則是把有統(tǒng)計相關的變量,如上文的身高X和體重Y的關系的形式作近似的估計,稱為回歸方程,現(xiàn)實世界中的現(xiàn)象往往涉及眾多變量,它們之間有錯綜復雜的關系,且許多屬于非決定性質(zhì),相關回歸理論的發(fā)明,提供了一種通過實際觀察去對這種關系進行定量研究的工具,有著重大的認識和實用意義。
到20世紀初年,由于上述幾個方面的發(fā)展,數(shù)理統(tǒng)計學已積累了很豐富的成果——在此因篇幅關系,我們不能詳盡無遺地一一列舉有關的重要成果,如抽樣調(diào)查的理論和方法方面的進展,但是直到這時為止,我們還不能說現(xiàn)代意義下的數(shù)理統(tǒng)計學已經(jīng)建立起來,其主要標志之一就是這門學問還缺乏一個統(tǒng)一的理論框架,這個任務在20世紀上半葉得以完成,狹義一點說可界定在1921——1938年,起主要作用的是幾位大師級的人物,特別是英國的費歇爾·K·皮爾遜,發(fā)展統(tǒng)計假設檢驗理論的奈曼與E·皮爾遜和提出統(tǒng)計決策函數(shù)理論的瓦爾德等。我國已故著名統(tǒng)計學家許寶(1910——1970)在這項工作中也卓有建樹。
自二戰(zhàn)結(jié)束迄今,數(shù)理統(tǒng)計學有了迅猛的發(fā)展,主要有以下三方面的原因:一是數(shù)理統(tǒng)計學理論框架的建立以及概率論和數(shù)學工具的進展,為統(tǒng)計理論在面上和向縱深的發(fā)展打開了門徑和提供了手段,許多在早期比較粗略的理論和方法,在理論上得到了完善與深入,并不斷提出新的論和方法,在理論上得到了完善與深入,并不斷提出新的研究課題;二是實用上的需要,不斷提出了復雜的問題與模型,吸引了學者們的研究興趣;三是電子計算機的發(fā)明與普及應用,一方面提供了必要的計算工具——統(tǒng)計方法的實施往往涉及大量數(shù)據(jù)的處理與運算,用人力無法在合理的時間內(nèi)完成,所以在早年,一些統(tǒng)計方法人們雖然知道,但很少付諸實用,就因為是人力所難及。計算機的出現(xiàn)解決了這個問題。而賦予統(tǒng)計方法以現(xiàn)實的生命力。同時,計算機對促進統(tǒng)計理論研究也有助益,統(tǒng)計模擬是其表現(xiàn)之一,在承認上述成就的同時,不少統(tǒng)計學家也指出這一時期發(fā)展中出現(xiàn)的一些問題或偏向,其中主要的一點是,數(shù)理統(tǒng)計學理論研究中的“數(shù)學化”氣味愈來愈重,相當一部分研究工作停留在數(shù)學的層面,早期那種理論研究與現(xiàn)實問題密切結(jié)合的優(yōu)良傳統(tǒng)有所淡化,一些學者還提出了補救的建議,對未來統(tǒng)計學發(fā)展的方向進行探討。同時,現(xiàn)實問題愈來愈涉及到大量的,結(jié)構(gòu)復雜的數(shù)據(jù),按現(xiàn)行的數(shù)理統(tǒng)計學規(guī)范去處理,顯得力所不及,需要一些帶有根本性創(chuàng)新的思路,使統(tǒng)計學的發(fā)展登上一個新的臺階,以適應應用上的需要,考慮這一背景,有的統(tǒng)計學家樂觀地認為數(shù)理統(tǒng)計學正面臨一個新的突破。
在上面講述數(shù)理統(tǒng)計學的發(fā)展狀況時,我們著重在實際需要所起的促進作用方面,由于概率論的概念和方法是數(shù)理統(tǒng)計學的理論基礎,概率論的進展也必然對數(shù)理統(tǒng)計學的發(fā)展起促進作用。
概率,又稱幾率,或然率,指一種不確定的情況出現(xiàn)可能性的大小,例如,投擲一個硬幣,“出現(xiàn)國徽”(國徽一面朝上)是一個不確定的情況。因為投擲前,我們無法確定所指情況(“出現(xiàn)國徽”)發(fā)生與否,若硬幣是均勻的且投擲有充分的高度,則兩面的出現(xiàn)機會均等,我們說“出現(xiàn)國徽”的概率是1/2;同時,投擲一個均勻骰子,“出現(xiàn)4點”的概率是1/6,除了這些以及類似的簡單情況外,概率的計算不容易,往往需要一些理論上的假定,在現(xiàn)實生活中則往往用經(jīng)驗的方法確定概率,例如某地區(qū)有N人,查得其中患某種疾病者有M人,則稱該地區(qū)的人患該種疾病的概率為M/N,這事實上是使用統(tǒng)計方法對發(fā)病概率的一個估計。
概率的概念起源于中世紀以來的歐洲流行的用骰子賭博,這一點不難理解,某種情況出現(xiàn)可能性的大小要能夠體察并引起研究的興趣,必須滿足兩個條件:一是該情況可以在多次重復中被觀察其發(fā)生與否(在多次重復下出現(xiàn)較頻繁的情況有更大的概率),一是該情況發(fā)生與否與當事人的利益有關或為其興趣關注之所在,用骰子賭博滿足這些條件。
當時有一個“分賭本問題”曾引起熱烈的討論,并經(jīng)歷了長達一百多年才得到正確的解決。在這過程中孕育了概率論一些重要的基本概念,舉該問題的一個簡單情況:甲、乙二人賭博,各出賭注30元,共60元,每局甲、乙勝的機會均等,都是1/2。約定:誰先勝滿3局則他贏得全部賭注60元,現(xiàn)已賭完3局,甲2勝1負,而因故中斷賭情,問這60元賭注該如何分給2人,才算公平,初看覺得應按2:1分配,即甲得40元,乙得20元,還有人提出了一些另外的解法,結(jié)果都不正確,正確的分法應考慮到如在這基礎上繼續(xù)賭下去,甲、乙最終獲勝的機會如何,至多再賭2局即可分出勝負,這2局有4種可能結(jié)果:甲甲、甲乙、乙甲、乙乙。前3種情況都是甲最后取勝,只有最后一種情況才是乙取勝,二者之比為3:1,故賭注的公平分配應按3:1的比例,即甲得45元,乙15元。
當時的一些學者,如惠更斯、巴斯噶、費爾馬等人,對這類賭情問題進行了許多研究,有的出版了著作,如惠更斯的一本著作曾長期在歐洲作為概率論的教科書,這些研究使原始的概率和有關概念得到發(fā)展和深化。不過,在這個概率論的草創(chuàng)階段,最重要的里程碑是伯努利的著作《推測術(shù)》。在他死后的1713年發(fā)表,這部著作除了總結(jié)前人關于賭情的概率問題的成果并有所提高外,還有一個極重要的內(nèi)容,即如今以他的名字命名的“大數(shù)律”,大數(shù)律是關于(算術(shù))平均值的定理,算術(shù)平均值,即若干個數(shù)X1、X2……Xn之和除以n,是最常用的一種統(tǒng)計方法,人們經(jīng)常使用并深信不疑。但其理論根據(jù)何在,并不易講清楚,就是伯努利的大數(shù)律要回答的問題,在某種程度上可以說,這個大數(shù)律是整個概率論最基本的規(guī)律之一,也是數(shù)理統(tǒng)計學的理論基石。
概率論雖發(fā)端于賭博,但很快在現(xiàn)實生活中找到多方面的應用,首先是在人口、保險精算等方面,在其發(fā)展過程中出現(xiàn)了若干里程碑的《機遇的原理》,其第三版發(fā)表于1756年,法國大數(shù)學家拉普拉斯的《分析概率論》,發(fā)表于1812年,1933年蘇聯(lián)教學家柯爾莫哥洛夫完成了概率論的公理體系,在幾條簡潔的公理之下,發(fā)展出概率論整座的宏偉建筑,有如在歐幾里得公理體系之下發(fā)展出整部幾何。自那以來,概率論成長為現(xiàn)代數(shù)學的一個重要分支,使用了許多深刻和抽象的數(shù)學理論,在其影響下,數(shù)理統(tǒng)計的理論也日益向深化的方向發(fā)展。中國(1)公元前22世紀的夏禹王朝,分中國為九州,人口為1355萬人,這是我國最早的土地和人口調(diào)查資料。(2)西周建立了統(tǒng)計報告制度,經(jīng)歷春秋戰(zhàn)國,到秦統(tǒng)一中國,形成了“上計”報告制度。(3)統(tǒng)計被認為是治理國家的重要手段,例如,管子“舉事必成,不知計數(shù)不可”,“不明于數(shù)而欲大事,猶無舟楫而欲經(jīng)于水險也?!鼻厣眺眲t指出“強國知十三數(shù)”的主張。(4)封建時代,中國的戶籍和田畝統(tǒng)計都有很大發(fā)展。秦始皇建立編戶制,東漢曾進行全國田地測量,唐代計口授田,宋明有田畝魚鱗冊的土地調(diào)查地圖。明代人口普查的“戶帖”和“黃冊”。西方(1)埃及在公元前27世紀,為建金字塔和大型農(nóng)業(yè)灌溉系統(tǒng),進行全國人口和財產(chǎn)調(diào)查。(2)公元前15世紀猶太人為了戰(zhàn)爭對以色列進行男丁調(diào)查。(3)《舊約》中記載,公元前10世紀前后,猶太國王大衛(wèi)和所羅門對全國進行比較完整的人口和財產(chǎn)調(diào)查。(4)公元前6世紀,羅馬帝國以國勢調(diào)查作為治理國家的有效手段,規(guī)定每五年一次人口、土地、牲畜、家奴的調(diào)查。(5)進入封建社會,統(tǒng)計調(diào)查往往采取財產(chǎn)目錄的形式,例如公元9世紀,法蘭克福國王查理大帝為編制“國庫財產(chǎn)大綱”而進行包括人口、土地、收入、農(nóng)產(chǎn)品、畜產(chǎn)品、工業(yè)品的調(diào)查。
11世紀英國國王威廉為編“最終稅冊”對全國封建主和自由民的土地占有情況和市民財產(chǎn)狀況進行調(diào)查。(6)15至18世紀歐洲封建社會進入繁榮時期,統(tǒng)計更作為說明各國國情的工具,出現(xiàn)了許多以報導國情為內(nèi)容統(tǒng)計著作,如英國的“死亡公報”。以上簡單介紹資本主義社會以前的統(tǒng)計活動,多半是結(jié)合賦稅、征兵作中進行,為國家統(tǒng)治階級服務的。隨著資本主義經(jīng)濟的發(fā)展,特別是現(xiàn)代化大生產(chǎn),對統(tǒng)計提出了新的要求,大大促進統(tǒng)計活動和統(tǒng)計科學的發(fā)展。經(jīng)濟統(tǒng)計形成了工業(yè)、農(nóng)業(yè)、商業(yè)、交通、郵電、海關、銀行、保險等等專業(yè)分支。例如,1790年美國舉辦現(xiàn)代意義的人口普查,并按法律規(guī)定每十年舉辦一次;19世紀初西方各國政府設立專業(yè)的統(tǒng)計機構(gòu)。19世紀末成立國際統(tǒng)計學會。統(tǒng)計方法也有很大發(fā)展,出現(xiàn)統(tǒng)計學。二、數(shù)理統(tǒng)計學的現(xiàn)實意義與作用籠統(tǒng)地說,數(shù)理統(tǒng)計學的理論和方法,與人類活動的各個領域在不同程度上都有關聯(lián)。因為各個領域內(nèi)的活動,都得在不同的程度上與數(shù)據(jù)打交道。都有如何收集和分析數(shù)據(jù)的問題,因此也就有數(shù)理統(tǒng)計學用武之地。我們可以舉幾個例子來說明這一點,如在工業(yè)中生產(chǎn)一種產(chǎn)品,首先有設計的問題,包括配方和工藝條件的選定,這要通過從大量可能的條件組合中,通過分析試驗結(jié)果來選定,可能的條件組合很多,選擇哪一部分去做試驗是一個很有講究的問題,在數(shù)理統(tǒng)計學中有一個專門分支叫“試驗設計”,就是研究怎樣在盡可能少的試驗次數(shù)之下,達到盡可能高效率的分析結(jié)果;其次,在生產(chǎn)過程中,由于原材料,設備調(diào)整及工藝參數(shù)等條件可能的變化,而造成生產(chǎn)條件不正常并導致出現(xiàn)廢品,在統(tǒng)計學中有一門“工序控制”的學問,通過在生產(chǎn)過程中隨時收集數(shù)據(jù)并用統(tǒng)計方法進行處理,可以監(jiān)測出不正常情況的出現(xiàn)以便隨時加以糾正,避免出大的問題;然后,大批量的產(chǎn)品生產(chǎn)出來后,還有一個通過抽樣檢驗以檢驗其質(zhì)量是否達到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數(shù)理統(tǒng)計方法,在我國現(xiàn)行的國家標準中有一些就與這個問題有關。
圖1股票分析系統(tǒng)
圖2經(jīng)濟統(tǒng)計分析
大的問題;然后,大批量的產(chǎn)品生產(chǎn)出來后,還有一個通過抽樣檢驗以檢驗其質(zhì)量是否達到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數(shù)理統(tǒng)計方法,在我國現(xiàn)行的國家標準中有一些就與這個問題有關。
在農(nóng)業(yè)上,有關選種,耕作條件,肥料選擇等一系列的問題的解決,都與統(tǒng)計方法的應用有關,在歷史上,現(xiàn)行的一些重要的統(tǒng)計設計與分析方法,就是近代最偉大的數(shù)理統(tǒng)計學家費歇爾于上世紀20年代在英國一個農(nóng)業(yè)試驗站工作時,因研究田間試驗的問題而發(fā)明的。
醫(yī)學與生物學是統(tǒng)計方法應用最多的領域之一,統(tǒng)計學是在有變異的數(shù)據(jù)中研究和發(fā)現(xiàn)統(tǒng)計規(guī)律的科學,就醫(yī)學而言,人體變異是一個重要的因素,不同的人的情況千差萬別,其對一種藥物和治療方法的反應也各不相同,因此,對一種藥物和治療方法的評價,是一種統(tǒng)計性規(guī)律的問題,不少國家對一種新藥的上市和一種治療方法的批準,都設定了很嚴格的試驗和統(tǒng)計檢驗的要求,又如:許多生活習慣(如吸煙、飲酒、高鹽飲食之類)對健康的影響,環(huán)境污染對健康的影響,都要通過收集大量數(shù)據(jù)進行統(tǒng)計分析來研究。
對社會現(xiàn)象的研究大量地使用統(tǒng)計方法,因為組成社會的單元——人、家庭、單位、地區(qū)等,都有很大的變異性,如果說,在自然現(xiàn)象中還不乏一些(在誤差可以允許的限度內(nèi))嚴格的、確定性的規(guī)律,在社會現(xiàn)象中這種規(guī)律則絕少,因此只能從統(tǒng)計的角度去考察,我們常說,某某措施,某某政策,對大多數(shù)人是有利的,這就是一種統(tǒng)計性規(guī)律,因為這種“有利”是指對大多數(shù),而非一切人。在20世紀初,就有統(tǒng)計學家研究過在英國幾種救助貧困的方式的效果的評估,這都是借助抽樣調(diào)查并通過復雜的統(tǒng)計分析得出的結(jié)果,如今,抽樣調(diào)查已經(jīng)成為研究社會現(xiàn)象的一種最有力的工具,因為全面調(diào)查往往不可行,而抽樣調(diào)查,從其方案的制定到數(shù)據(jù)的分析,都是以數(shù)理統(tǒng)計學的理論和方法為基礎。三、統(tǒng)計學發(fā)展前景展望
這個問題在前面第一個問題中曾涉及一點?,F(xiàn)在再簡單的補充幾句,前面曾提到,20世紀下半葉以來,由于人們對當時數(shù)理統(tǒng)計學發(fā)展中某些偏向進行反思,統(tǒng)計學界就不時地討論到“統(tǒng)計學未來發(fā)展方向”這個問題,自20世紀70年代以來國際上有過一系列以此為主題或涉及此主題的學術(shù)會議,臨近上世紀末,更有若干知名的統(tǒng)計學者撰文討論這個問題,當今的情況是:對某些一般的原則性的問題有普遍的共識,但對未來統(tǒng)計學將向那個方向發(fā)展或應當向那個方向發(fā)展這個問題,則不能說已有了廣泛一致的看法和意見,下面只就幾個比較有影響的觀點來談談。
一個大家都同意的原則是,數(shù)理統(tǒng)計學的發(fā)展,應當繼承和發(fā)揚早期那種與實際密切結(jié)合的優(yōu)良傳統(tǒng),這不是否定理論研究的作用,而是提倡,理論研究的成果應當對分析實際數(shù)據(jù)有用,美國老一輩著名統(tǒng)計學家圖基早在1960年代就提出,對于那種于分析數(shù)據(jù)無用的研究成果,其意義僅限于從純數(shù)學的角度去評價。
另一種得到比較廣泛認同的觀點,是認同統(tǒng)計學研究應努力與其他實用學科結(jié)合而形成交叉或邊緣學科,這一點目前已有一定的表現(xiàn),如生物統(tǒng)計、醫(yī)藥統(tǒng)計、工業(yè)統(tǒng)計、金融統(tǒng)計等,都是當前發(fā)展很快的熱點,有的學者認為研究數(shù)理統(tǒng)計學必須與另一門專門學問結(jié)合,才有可能做出有重要意義的成果。這一點已在若干成功的學者身上得到印證,有個別走得更遠的學者認為,統(tǒng)一的統(tǒng)計學將會因為與其他學科結(jié)合發(fā)展而分裂成許多并行的學科,好比一個大國分裂成一些小國,并把這稱為統(tǒng)計學的巴爾干化——與昔日巴爾干半島上統(tǒng)一的南斯拉夫如今分裂為一些小國相比。但是,數(shù)理統(tǒng)計學與其他學科結(jié)合形成交叉學科這個引人注目的發(fā)展,是否將導致“統(tǒng)一的”或“一般的”統(tǒng)計學的消亡或衰落,這一點現(xiàn)在看來并不確定,至少多數(shù)學者現(xiàn)在還不這么認為。
圖基在1962年在一篇長文中提出“數(shù)據(jù)分析”的思想,幾十年來得到國際上一些有影響的學者的支持,要全面講清楚這種觀點需要較多的篇幅,這里只就其一個核心的觀點來討論一下,這涉及到對現(xiàn)行的數(shù)理統(tǒng)計規(guī)范的地位問題,前面我們曾談到,由于統(tǒng)計學處理的是帶隨機誤差的數(shù)所,由分析這種數(shù)數(shù)據(jù),得出的結(jié)論就有可能出錯或不準確,出錯的可能性的大小,不準確的程度如何,需要用概率論的概念和方法作定量的刻畫,在研究統(tǒng)計問題時,必須把這作為一個目標,朝這個方向努力,這就是現(xiàn)行數(shù)理統(tǒng)計學的規(guī)范。數(shù)理統(tǒng)計學之所以能被承認為一門有嚴格理論基礎的學科,是與遵守這一規(guī)范聯(lián)系在一起的。但是,如果我們真的嚴格遵守這一規(guī)范,則以現(xiàn)在我們的知識水平而言,許多問題將無法下手。于是,學者們只好轉(zhuǎn)向一些人為的、不太復雜的、用現(xiàn)行數(shù)學工具可以處理的模型,這種模型往往有“閉門造車”的缺點而缺乏現(xiàn)實性,圖基的“數(shù)據(jù)分析”思想的一個觀點是,主張淡化這個規(guī)范。
這種說法有一定的事實根據(jù),可以說,在實用統(tǒng)計學的領域中,這個規(guī)范并不總是得到嚴格遵守的,現(xiàn)在我們有一些統(tǒng)計方法,它用起來有較好的效果,但在理論上并沒有搞清楚其錯誤或偏差的可能性或數(shù)量有多大;另外,隨著科技的發(fā)展,不斷提出一些更復雜的模型,以我們現(xiàn)有的知識水平,沒有可能對之作出完全符合上述規(guī)范的處理,而只能退而求其次,尋求一種在實用上可行的解法,當然,應當明確,在研究工作中達不到上述規(guī)范,與從根本上取消或淡化這個規(guī)范是兩回事,一門學科必須有其規(guī)范或科學的定位(回答這門學科是什么的問題,判定其成果的可信性與意義等等,而這不能用籠統(tǒng)的說法,必須用確切的科學語言)。如果用數(shù)據(jù)分析取代現(xiàn)行的數(shù)理統(tǒng)計學,就有一個為數(shù)據(jù)分析定位的問題,而這至今還沒有一個滿意的解決,以此之故,雖然數(shù)據(jù)分析的提法獲得不少支持且在實際的統(tǒng)計應用中有所反映(例如現(xiàn)在媒體中常提及的“數(shù)據(jù)挖掘”DataMining)。雖然,數(shù)據(jù)挖掘并不單純是一個統(tǒng)計學課題,它至今尚未能動搖現(xiàn)行數(shù)理統(tǒng)計學的主流地位。
除了上述幾種富于原則性的思想外,也有一部分學者致力于在現(xiàn)行統(tǒng)計學的框架下尋求新的生長點,在這方面也有不少的討論或爭論,如關于費歇爾的統(tǒng)計學思想和研究成果的再認識,關于數(shù)理統(tǒng)計學中的“頻率學派”與“貝葉斯學派”之間的爭論等,因涉及較多的數(shù)學概念,不能在此細談了。
我個人認為,由于統(tǒng)計學是一門有廣泛應用的學科,應用問題的多面性,要求不拘一格的處理方法,應用效果的多目標性以及統(tǒng)計問題的“不完全信息”的性質(zhì)(指數(shù)據(jù)并未包含與問題有關的完整信息),也決定了統(tǒng)計方法的發(fā)展不致受某一種思想所支配,因此,至少在可以預見的將來,統(tǒng)計學的進展將是一種“多元”的局面,不會出現(xiàn)某種趨勢占絕對優(yōu)勢的情況。三、統(tǒng)計研究的基本環(huán)節(jié)統(tǒng)計設計收集數(shù)據(jù)整理與分析資料積累開發(fā)應用統(tǒng)計學理論與相關實質(zhì)性學科理論統(tǒng)計調(diào)查、實驗描述統(tǒng)計推斷統(tǒng)計
——
對隨機現(xiàn)象進行觀測、試驗,以取得有代表性的觀測值
——
對已取得的觀測值進行整理、分析,作出推斷、決策,從而找出所研究的對象的規(guī)律性數(shù)理統(tǒng)計的分類描述統(tǒng)計學推斷統(tǒng)計學四、數(shù)理統(tǒng)計的分類數(shù)參估計(第二章)假設檢驗(第三章)回歸分析(第四章)方差分析(第五章)
推斷統(tǒng)計學正交分析(第六章)總體——
研究對象全體元素組成的集合所研究的對象的某個(或某些)數(shù)量指標的全體,它是一個隨機變量(或多維隨機變量).記為X
.
X
的分布函數(shù)和數(shù)字特征稱為總體的分布函數(shù)和數(shù)字特征.總體和樣本§1.2數(shù)理統(tǒng)計基本概念樣本
——
從總體中抽取的部分個體.稱為總體X的一個容量為n的樣本觀測值,或稱樣本的一個實現(xiàn).用表示,n為樣本容量.樣本空間——
樣本所有可能取值的集合.
個體
——
組成總體的每一個元素即總體的每個數(shù)量指標,可看作隨機變量X
的某個取值.用表示.若總體
X的樣本滿足:一般,對有限總體,放回抽樣所得到的樣本為簡單隨機樣本,但使用不方便,常用不放回抽樣代替.而代替的條件是(1)與X
有相同的分布(2)相互獨立則稱為簡單隨機樣本.簡單隨機樣本N/n
10.總體中個體總數(shù)樣本容量設總體X
的分布函數(shù)為F(x),則樣本若總體X
的密
d.f.為
f(
x),則樣本的聯(lián)合d.f.為的聯(lián)合分布函數(shù)為例如:X1,X2,…,Xn為取自總體N(0,1)的樣本,則其聯(lián)合密度函數(shù)
例如設某批產(chǎn)品共有N
個,其中的次品數(shù)為M,其次品率為若
p是未知的,則可用抽樣方法來估計它.X
服從參數(shù)為p的0-1分布,可用如下表示方法:從這批產(chǎn)品中任取一個產(chǎn)品,用隨機變量X來描述它是否是次品:設有放回地抽取一個容量為n
的樣本的聯(lián)合分布為其樣本值為樣本空間為若抽樣是無放回的,則前次抽取的結(jié)果會影響后面抽取的結(jié)果.例如所以,當樣本容量n
與總體中個體數(shù)目N
相比很小時,可將無放回抽樣近似地看作放回抽樣.
例1(P147)隨機地觀測總體X得8個數(shù)據(jù):2.5,3,2.5,3.5,3,2.7,2.5,2,試求X的一個經(jīng)驗分布函數(shù)。解2<2.5=2.5=2.5<2.7<3=3<3.5經(jīng)驗分布函數(shù)
例1
隨機地觀測總體X得8個數(shù)據(jù):2.5,3,2.5,3.5,3,2.7,2.5,2,試求X的一個經(jīng)驗分布函數(shù)。解2<2.5=2.5=2.5<2.7<3=3<3.5XP22.52.733.51/83/81/82/81/8一般Fn(x)對應分布列:P(X=xi)=1/n,i=1,2,...,n隨機模擬顯示格列汶科定理右連續(xù)設是取自總體X的一個樣本,為一實值連續(xù)函數(shù),且不含有未知參數(shù),則稱隨機變量為統(tǒng)計量.若是一個樣本值,稱的一個樣本值為統(tǒng)計量定義統(tǒng)計量例
是未知參數(shù),若
,
已知,則為統(tǒng)計量是一樣本,是統(tǒng)計量,其中則但不是統(tǒng)計量.常用的統(tǒng)計量為樣本均值為樣本方差為樣本標準差設是來自總體
X
的容量為
n
的樣本,稱統(tǒng)計量為樣本的k階原點矩為樣本的k
階中心矩例如(5)順序統(tǒng)計量與極差設為樣本,為樣本值,且當取值為時,定義r.v.則稱統(tǒng)計量為順序統(tǒng)計量.其中,稱為極差注樣本方差與樣本二階中心矩的不同故推導關系式1)推導
設則2)例1
從一批機器零件毛坯中隨機地抽取10件,測得其重量為(單位:公斤):
210,243,185,240,215,228,196,235,200,199求這組樣本值的均值、方差、二階原點矩與二階中心矩.解令例1則例2
在總體中,隨機抽取一個容量為36的樣本,求樣本均值落在50.8到53.8之間的概率.解故例2例3
設總體X的概率密度函數(shù)為為總體的樣本,求(1)的數(shù)學期望與方差(2)
(3)
解(1)例3(3)由中心極限定理(2)主講:胡曉山數(shù)理統(tǒng)計數(shù)理統(tǒng)計統(tǒng)計學華中科技大學數(shù)學系
確定統(tǒng)計量的分布是數(shù)理統(tǒng)計的基本問題之一
正態(tài)總體是最常見的總體,本節(jié)介紹的幾個抽樣分布均對正態(tài)總體而言.§6.2抽樣分布§6.2(1)
正態(tài)分布則特別地,則統(tǒng)計中常用分布若i.i.d.~若~標準正態(tài)分布的
分位數(shù)分布的上
分位數(shù).定義正態(tài)分布的雙側(cè)
分位數(shù).若,則稱為標準若則稱標準正態(tài)分布的
分位數(shù)圖形z
?
常用數(shù)字/2
-z/2=z1-/2/2
z/2?-z/2?(2)分布(n為自由度)定義設相互獨立,且都服從標準正態(tài)分布N(0,1),則n=1
時,其密度函數(shù)為卡分布n=2
時,其密度函數(shù)為為參數(shù)為1/2的指數(shù)分布.一般其中,在x>0時收斂,稱為
函數(shù),具有性質(zhì)的密度函數(shù)為自由度為
n的n=2n=3n=5n=10n=15
例如
分布的性質(zhì)
20.05(10)?n=10性質(zhì)性質(zhì)性質(zhì)性質(zhì)相互獨立,證
1
設則由此可見,卡方分布不僅僅可由正太分布導入,可由指數(shù)分布導入,例如,若又若則于是若(3)t
分布
(Student分布)定義則稱T服從自由度為n
的T分布.其密度函數(shù)為X,Y相互獨立,設t
分布t分布的圖形(紅色的是標準正態(tài)分布)n=1n=20t分布的性質(zhì)1°fn(t)是偶函數(shù),2°T分布的上
分位數(shù)t
與雙測
分位數(shù)t/2
均
有表可查.性質(zhì)n=10t
-t
??
t
/2-t
/2??
/2
/2當n>45時,有t
(n)=u
(4)
F分布則稱F服從為第一自由度為n
,第二自由度為m的F
分布.
其密度函數(shù)為定義X,Y相互獨立,設令F分布m=10,n=4m=10,n=10m=10,n=15m=4,n=10m=10,n=10m=15,n=10F分布的性質(zhì)例如事實上,故求F
(n,m)?
性質(zhì)例1
證明證例1證例2
證明:設令例2
抽樣分布的某些結(jié)論(Ⅰ)
一個正態(tài)總體與相互獨立設總體,樣本為(),(1)(2)結(jié)論(II)
兩個正態(tài)總體相互獨立的簡單隨機樣本.令設與分別是來自正態(tài)總體與的則若則(3)則相互獨立的簡單隨機樣本.設與分別是來自正態(tài)總體與的與相互獨立(4)的概率不小于90%,則樣本容量至少取多少?例3設,為使樣本均值大于70解設樣本容量為
n
,則故令得即所以取例3例4
從正態(tài)總體中,抽取了
n=20的樣本(1)求(2)求解
(1)即例4故(P.386)(2)故例5
設r.v.X與Y相互獨立,X~N(0,16),
Y~N(0,9),X1,X2,…,X9
與Y1,Y2,…,Y16
分別是取自X與Y的簡單隨機樣本,求統(tǒng)計量所服從的分布.解例5從而例6
設總體
的樣本,為總體
X
試確定常數(shù)c,
使cY服從分布.解故因此例6例7
設
是來自N(,2)的簡單隨機樣本,
是樣本均值,則服從自由度為n-1的t分布的隨機變量為例7故應選(B)解作業(yè)P.202習題六
910補充作業(yè)其樣本均值為求統(tǒng)計量1.設為從正態(tài)總體
X~N(
,
2)中抽取的簡單隨機樣本的數(shù)學期望E(Y).習題(轉(zhuǎn)后頁)
是來自正態(tài)總體的容量為
n
的兩個樣本均值,且兩樣本相互獨立,試確定n,使兩樣本均值之差的絕對值超過的概率大約為0.01.每周一題13
第十三周
問題
某水產(chǎn)養(yǎng)殖場兩年前在人工湖中混養(yǎng)了黑、白兩種魚.現(xiàn)在需要對黑白魚數(shù)目的比例進行估計.提示:分別用矩法與極大似然估計法解決此問題.如何估計湖中黑、白魚的比例第二章
參數(shù)估計7-1第七章參數(shù)估計問題假設檢驗問題點估計區(qū)間估計統(tǒng)計推斷
DE基本問題7-2什么是參數(shù)估計?參數(shù)是刻畫總體某方面概率特性的數(shù)量.當此數(shù)量未知時,從總體抽出一個樣本,用某種方法對這個未知參數(shù)進行估計就是參數(shù)估計.例如,X~N(,2),點估計區(qū)間估計若,2未知,通過構(gòu)造樣本的函數(shù),給出它們的估計值或取值范圍就是參數(shù)估計的內(nèi)容.參數(shù)估計的類型點估計——估計未知參數(shù)的值區(qū)間估計——估計未知參數(shù)的取值范圍,并使此范圍包含未知參數(shù)真值的概率為給定的值.§2.1點估計方法點估計的思想方法設總體X的分布函數(shù)的形式已知,但含有一個或多個未知參數(shù):
1,
2,,
k設
X1,X2,…,Xn為總體的一個樣本構(gòu)造k個統(tǒng)計量:隨機變量7-5§7.1當測得樣本值(x1,x2,…,xn)時,代入上述方程組,即可得到k個數(shù):數(shù)值稱數(shù)為未知參數(shù)的估計值7-6對應統(tǒng)計量為未知參數(shù)的估計量并建立k個方程。三種常用的點估計方法頻率替換法利用事件A
在n
次試驗中發(fā)生的頻率作為事件A
發(fā)生的概率p
的估計量7-7法一例1
設總體X~N(,2
),在對其作28次獨立觀察中,事件“X<4”出現(xiàn)了21次,試用頻率替換法求參數(shù)
的估計值.解
由查表得于是
的估計值為7-8例1方法用樣本
k
階矩作為總體
k
階矩的估計量,建立含有待估參數(shù)的方程,從而解出待估參數(shù)7-9一般,不論總體服從什么分布,總體期望
與方差
2存在,則它們的矩估計量分別為矩法法二7-10事實上,按矩法原理,令7-11設待估計的參數(shù)為設總體的
r
階矩存在,記為樣本X1,X2,…,Xn的r階矩為令——含未知參數(shù)
1,
2,,
k的方程組7-12解方程組,得k
個統(tǒng)計量:未知參數(shù)
1,,
k
的矩估計量代入一組樣本值得k個數(shù):未知參數(shù)
1,,
k
的矩估計值例2設總體X~N(,2),X1,X2,…,Xn為總體的樣本,求,2的矩法估計量.解例3設總體X~E(
),X1,X2,…,Xn為總體的樣本,求
的矩法估計量.解令7-13故例2~3例4設從某燈泡廠某天生產(chǎn)的燈泡中隨機抽取10只燈泡,測得其壽命為(單位:小時)1050,1100,1080,1120,12001250,1040,1130,1300,1200試用矩法估計該廠這天生產(chǎn)的燈泡的平均壽命及壽命分布的方差.解7-14例4例5設總體X~U(a,b),a,b未知,求參數(shù)
a,b
的矩法估計量.解由于令7-15例5解得7-16極大似然估計法思想方法:一次試驗就出現(xiàn)的事件有較大的概率例如:有兩外形相同的箱子,各裝100個球一箱99個白球1個紅球一箱1個白球99個紅球現(xiàn)從兩箱中任取一箱,并從箱中任取一球,結(jié)果所取得的球是白球.答:第一箱.7-17問:所取的球來自哪一箱?法三例6設總體X服從0-1分布,且P(X=1)=p,
用極大似然法求
p
的估計值.解總體X的概率分布為設x1,x2,…,xn為總體樣本X1,X2,…,Xn的樣本值,則7-18例6對于不同的p,L(p)不同,見右下圖現(xiàn)經(jīng)過一次試驗,發(fā)生了,事件則
p
的取值應使這個事件發(fā)生的概率最大.7-19在容許范圍內(nèi)選擇
p,使L(p)最大注意到,lnL(p)是L的單調(diào)增函數(shù),故若某個p
使lnL(p)最大,則這個p必使L(p)最大。7-20所以為所求p的估計值.一般,設X為離散型隨機變量,其分布律為則樣本X1,X2,…,Xn的概率分布為7-21或稱L()為樣本的似然函數(shù)稱這樣得到的為參數(shù)
的極大似然估計值稱統(tǒng)計量為參數(shù)
的極大似然估計量7-22
MLE簡記
mle簡記選擇適當?shù)?,使取最大值,即L()極大似然法的思想若X
連續(xù),取f(xi,
)為Xi
的密度函數(shù)似然函數(shù)為7-23注1注2未知參數(shù)可以不止一個,如
1,…,
k
設X
的密度(或分布)為則定義似然函數(shù)為若關于
1,…,
k可微,則稱為似然方程組若對于某組給定的樣本值x1,x2,…,xn,參數(shù)使似然函數(shù)取得最大值,即則稱為
1,…,
k
的極大似然估計值7-24顯然,稱統(tǒng)計量為
1,
2,…,
k
的極大似然估計量7-25例7設總體X~N(
,
2),x1,x2,…,xn是
X
的樣本值,求
,
2的極大似然估計.解7-26例7
,
2的極大似然估計量分別為似然方程組為7-27極大似然估計方法1)寫出似然函數(shù)L2)求出,使得7-28可得未知參數(shù)的極大似然估計值然后,再求得極大似然估計量.7-29L是的可微函數(shù),解似然方程組若
L不是的可微函數(shù),需用其它方法求極大似然估計值.請看下例:若例8設X~U(a,b),x1,x2,…,xn是
X
的一個樣本值,求
a,b的極大似然估計值與極大似然估計量.解X的密度函數(shù)為似然函數(shù)為7-30例8似然函數(shù)只有當a<xi<b,i=1,2,…,n時才能獲得最大值,且a越大,b越小,L越大.令xmin=min{x1,x2,…,xn}xmax=max{x1,x2,…,xn}取則對滿足的一切a<b,7-31都有故是a,b的極大似然估計值.分別是a,b的極大似然估計量.7-32問題1)待估參數(shù)的極大似然估計是否一定存在?2)若存在,是否惟一?設X~U(a–?,a+?),x1,x2,…,xn是
X的一個樣本,求
a的極大似然估計值.解由上例可知,當時,L
取最大值1,即顯然,a
的極大似然估計值可能不存在,也可能不惟一.7-33例9例9不僅如此,任何一個統(tǒng)計量若滿足都可以作為
a
的估計量.7-34極大似然估計的不變性設是
的極大似然估計值,u(
)(
)是
的函數(shù),且有單值反函數(shù)=(u),uU則是u(
)的極大似然估計值.7-35不變性如在正態(tài)總體N(
,
2)中,
2的極大似然估計值為是
2的單值函數(shù),且具有單值反函數(shù),故
的極大似然估計值為lg
的極大似然估計值為7-36§2.2點估計的評價標準
對于同一個未知參數(shù),不同的方法得到的估計量可能不同,于是提出問題應該選用哪一種估計量?用何標準來評價一個估計量的好壞?常用標準(1)無偏性(3)一致性(相合性)(2)有效性§7.2若則稱是
的無偏估計量.
無偏性無偏定義我們不可能要求每一次由樣本得到的估計值與真值都相等,但可以要求這些估計值的期望與真值相等.定義的合理性是總體X的樣本,證明:不論
X服從什么分布(但期望存在),是的無偏估計量.證例1
設總體X的
k
階矩存在因而由于例1則特別地樣本二階原點矩
是總體是總體期望E(X)的樣本均值無偏估計量的無偏二階原點矩估計量例2
設總體
X
的期望與方差存在,
X的樣本為
(n>1).(1)不是D(X)的無偏估量;(2)是D(X)的無偏估計量.證前已證證明例2例3
設是總體X的一個樣本
,X~B(n
,p)n>1,求p2
的無偏估計量.
解由于樣本矩是總體矩的無偏估計量以及數(shù)學期望的線性性質(zhì),只要將未知參數(shù)表示成總體矩的線性函數(shù),然后用樣本矩作為總體矩的估計量,這樣得到的未知參數(shù)的估計量即為無偏估計量.令例3因此,p2
的無偏估計量為故例4
設是總體X的一個樣本
,X~P()n>1,求2
的無偏估計量.
解令例3例4
設總體X
的密度函數(shù)為為常數(shù)為X
的一個樣本證明與都是的無偏估計量證
故是
的無偏估計量.例4令即故nZ是
的無偏估計量.都是總體參數(shù)
的無偏估計量,且則稱比更有效.定義
設有效性有效所以,比更有效.是
的無偏估計量,問哪個估計量更有效?由例4可知,與都為常數(shù)例5
設總體X
的密度函數(shù)為解
,例5例6
設總體X,且
E(X)=,
D(X)=
2
為總體X
的一個樣本證明是
的無偏估計量(2)證明比更有效證
(1)
例6(1)設常數(shù)(2)
結(jié)論算術(shù)均值比加權(quán)均值更有效.例如
X~N(
,
2
),(X1
,X2)是一樣本.都是
的無偏估計量由例6(2)
知最有效.羅—克拉美(Rao–Cramer)不等式若是參數(shù)
的無偏估計量,則其中f
(x,
)是總體
X的概率分布或密度函數(shù),稱為方差的下界.當時,稱為達到方差下界的無偏估計量,此時稱為最有效的估計量,簡稱有效估計量.例7
設總體X
的密度函數(shù)為為X
的一個樣本值.求
的極大似然估計量,并判斷它是否達到方差下界的無偏估計量.為常數(shù)解由似然函數(shù)例7
的極大似然估計量為它是
的無偏估計量.而故是達到方差下界的無偏估計量.例2
設總體X~N(,2),X1,X2,…,Xn為總體的樣本,證明分別是
,2的解7-13例2~3定義
設是總體參數(shù)
則稱是總體參數(shù)
的一致(或相合)估計量.的估計量.若對于任意的
,
當n
時,一致性依概率收斂于
,即一致性估計量僅在樣本容量
n足夠大時,才顯示其優(yōu)越性.一致解:關于一致性的兩個常用結(jié)論1.樣本k階矩是總體k
階矩的一致性估計量.
是
的一致估計量.由大數(shù)定律證明用切貝雪夫不等式證明矩法得到的估計量一般為一致估計量在一定條件下,極大似然估計具有一致性2.設是
的無偏估計量,且,則例8為常數(shù)則是
的無偏、有效、一致估計量.證
由例7知是
的無偏、有效估計量.所以是
的一致估計量,證畢.例8作業(yè)P.231習題七161820習題補充題設總體X~N(,2),為X
的一個樣本,常數(shù)k
取何值可使為
的無偏估計量
第十四周
問題母親嗜酒是否影響下一代的健康
美國的Jones醫(yī)生于1974年觀察了母親在妊娠時曾患慢性酒精中毒的6名七歲兒童(稱為甲組).以母親的年齡,文化程度及婚姻狀況與前6名兒童的母親相同或相近,但不飲酒的46名七歲兒童為對照租(稱為乙組).測定兩組兒童的智商,結(jié)果如下:每周一題14甲組67819乙組469916人數(shù)智商平均數(shù)樣本標準差智商組別
由此結(jié)果推斷母親嗜酒是否影響下一代的智力?若有影響,推斷其影響程度有多大?提示
前一問題屬假設檢驗問題后一問題屬區(qū)間估計問題作業(yè)P.231習題七161820習題補充題設總體X~N(,2),為X
的一個樣本,常數(shù)k
取何值可使為
的無偏估計量統(tǒng)計抽樣主要研究什么內(nèi)容,解決什么問題?統(tǒng)計抽樣主要有哪幾種方法?如何確定樣本容量?7.1統(tǒng)計抽樣基本概念總體由研究對象的全體所組成。樣本是總體中的部分元素所組成的集合。目標總體是我們要推斷的總體抽樣總體是實際抽取樣本的總體 在抽樣之前,應將總體劃分為抽樣單位。抽樣單位既可以是一個簡單的個體,也可以是一組個體。 對某一個特殊研究,抽樣單位的名冊稱為抽樣框。7.1統(tǒng)計抽樣基本概念調(diào)查方法郵寄調(diào)查電話調(diào)查個人采訪調(diào)查7.2抽樣調(diào)查種類和抽樣方法調(diào)查誤差非抽樣誤差抽樣誤差由于沒有對總體的所有單位進行調(diào)查而產(chǎn)生的誤差進行一次抽樣調(diào)查可能出現(xiàn)的如測量誤差、采訪者誤差及數(shù)據(jù)處理誤差等。
7.3調(diào)查誤差 從一個容量為N的有限總體中抽取得到一個容量為n的簡單隨機樣本,使每一個容量為n的可能樣本,都有相同的概率被抽中。建立抽樣框根據(jù)隨機數(shù)表進行抽樣抽樣總體中所有個體的名冊使用隨機數(shù)表,可以保證抽樣總體中的每個個體都有相同的概率被抽中
7.4簡單隨機抽樣總體均值總體比率樣本容量的確定7.4簡單隨機抽樣
如果選擇大樣本(n≥30),則中心極限定理可以保證的抽樣分布近似服從正態(tài)概率分布,μ的區(qū)間估計為
式中,為均值的標準差。1-α稱為置信度,為與之對應的臨界值。例如,若置信度為95%,則。7.4.1總體均值 當從一個容量為N的有限總體中,抽取一個容量為n的簡單隨機樣本時,均值的標準差的估計值為
此時總體均值的區(qū)間估計為 在抽樣調(diào)查中,當構(gòu)造置信區(qū)間時,通常取μ=2。因此,在使用簡單隨機樣本時,總體均值的近似95%的置信區(qū)間的表達式為:7.4.1總體均值[例7.1]《攝影》是一本推介攝影作品、報道攝影發(fā)展狀況、介紹攝影器材的雜志,它目前擁有8000個訂戶。根據(jù)一個484個訂戶的簡單隨機樣本,得出訂戶的年平均收入為30500元,標準差為7040元。因此,所有訂戶的年平均收入的無偏估計為元。 因此,這本雜志訂戶的年平均收入的近似95%的置信區(qū)間為 即(29880,31120)。7.4.1總體均值 上述過程也可用于對諸如總體總量或總體比率等其他總體參數(shù)的區(qū)間估計。對點估計的抽樣分布近似服從正態(tài)概率分布的所有情形,其近似95%的置信區(qū)間為 例如,在《攝影》的抽樣調(diào)查中,點估計量的標準誤差的估計值為,允許誤差為2×310元=620元。7.4.1總體均值
總體比率p是總體中具有某些感興趣特征的個體的比重。[例7.2]在市場調(diào)查研究中,人們想了解喜歡某一品牌的消費者比重。樣本比率是總體比率的無偏點估計??傮w比率的標準差的估計值為 因此, 總體比率的近似95%的置信區(qū)間的表達式如下:
7.4.2總體比率 例如,在大宇國際咨詢公司的抽樣調(diào)查中,大宇國際咨詢公司也想估計在它服務范圍內(nèi)的500所學校中,使用天然氣作為取暖燃料的學校比率。如果在抽出的50所學校中,有35所學校使用天然氣作為取暖燃料,則總體500所學校中使用天然氣比率的點估計值。比率的標準差的估計值為 因此, 總體比率的近似95%置信區(qū)間為 即(0.5758,0.8242)。7.4.2總體比率回憶前面提到的允許誤差為“點估計的標準差估計值的2倍”,因此:均值的標準差的估計值:7.4.3樣本容量的確定兩步抽樣用試點調(diào)查或事先檢驗的結(jié)果估計s2
估計s2的方法根據(jù)以往的資料估計s2
由第一步抽取的部分單位,得到的s2的估計值,將此值代入上式,確定出全部樣本容量n;然后對第一步確定的全部樣本容量,再抽取第二步所需要的其余單位數(shù)。
7.4.3樣本容量的確定[例7.3]某大學有5000名畢業(yè)生,我們想構(gòu)造寬度在1000元之內(nèi)的近似95%的置信區(qū)間。 對這樣規(guī)定的置信區(qū)間,B=500。在確定n之前,需要估計。 假設根據(jù)去年所做的同樣研究,得知s=3000元。我們可以用這個值來估計。根據(jù)B=500、s=3000及N=5000,則樣本容量為7.4.3樣本容量的確定
在估計總體比率時,選擇樣本容量的公式,與估計總體均值的公式類似。我們只需要將估計總體均值的公式中替換為,即
使用上式時,我們必須規(guī)定允許誤差B和給出的一個估計值。如果沒有合適的估計值,我們可以使用代替,這樣將保證近似置信區(qū)間的允許誤差比希望的要小的多。7.4.3樣本容量的確定將總體劃分H組從第h層中抽取一個容量為nh的簡單隨機樣本由這H個簡單隨機樣本的聯(lián)合資料,可得出諸如總體均值、總體總量及總體比率等各種總體參數(shù)的估計。
分層簡單隨機抽樣的步驟:也稱為層7.5分層簡單隨機抽樣
如果各層內(nèi)的差異比層間的差異小,則分層簡單隨機樣本可得到更大的精度(總體參數(shù)的區(qū)間估計將更窄)。 各層的劃分應依據(jù)樣本設計者的判斷。 根據(jù)應用,總體可按部門、地區(qū)、年齡、產(chǎn)品類型、銷售水平等分層。7.5分層簡單隨機抽樣[例7.4]某大學管理學院想對今年的畢業(yè)生進行一次調(diào)查,以便了解他們開始工作時的年薪。7.5分層簡單隨機抽樣 在分層抽樣中,總體均值的無偏估計是各層樣本均值的加權(quán)平均數(shù),所用權(quán)數(shù)為總體在各層的比重。用
表示總體均值的點估計,其定義如下: 式中:H--層數(shù);--第h層的樣本均值; Nh--第h層的單位數(shù);N--總體單位數(shù); 對分層簡單隨機樣本,計算平均值的標準差的估計公式為7.5.1總體均值某大學管理學院的180名畢業(yè)生的樣本調(diào)查結(jié)果
7.5.1總體均值 各專業(yè)(層)的樣本均值分別為:
因此,總體均值的點估計為7.5.1總體均值抽樣調(diào)查中估計均值的標準差所需要的部分計算結(jié)果7.5.1總體均值 上表中 因此,總體的近似95%的置信區(qū)間為 即(29074,29626)。
7.5.1總體均值 對分層簡單隨機抽樣,總體比率p的無偏估計是各層比率的加權(quán)平均數(shù),所用權(quán)數(shù)為總體在各層的比重??傮w比率的點估計定義如下: 式中:H--層數(shù);--第h層的樣本比率;Nh―第h層的單位數(shù);N―總體單位數(shù);7.5.2總體比率 的標準差的估計值為 總體比率的近似95%的置信區(qū)間的表達式為7.5.2總體比率
[例7.5]在某大學的調(diào)查中,大學想了解畢業(yè)生開始工作時的年薪不低于36000元的比率。180名畢業(yè)生的抽樣調(diào)查結(jié)果顯示,有20名畢業(yè)生開始工作時的年薪不低于36000元,其中會計專業(yè)4名,金融專業(yè)2名,信息系統(tǒng)專業(yè)7名,市場營銷專業(yè)1名,經(jīng)營管理專業(yè)6名。
7.5.2總體比率 根據(jù)總體比率的近似95%的置信區(qū)間的公式,開始工作時的年薪不低于36000元的比率的點估計為:
故畢業(yè)生開始時的年薪不低于36000元的比率近似95%置信區(qū)間為(0.0575,0.1387)7.5.2總體比率
對分層簡單隨機抽樣,我們可用兩階段過程來選擇樣本容量。
既然人們想估計各層的均值、總量及比率,這兩種組合方法都經(jīng)常使用。確定總樣本容量n決定各層應分配的樣本單位數(shù)決定每層應選擇的樣本單位數(shù)加總得到總樣本容量
或者7.5.3樣本容量的確定
確定總樣本容量n及其分配,可對所有要研究的總體參數(shù)提供必要的精度。
分配工作就是決定總樣本被分配到各層的部分,這些部分將確定各層的簡單隨機樣本的容量。
各層的單位數(shù)各層內(nèi)的方差考慮的因素各層選擇單位的費用
7.5.3樣本容量的確定 一般地,單位數(shù)較多的層和方差較大的層應分配較多的樣本數(shù)目。 相反地,對于給定的費用,為了獲得更多的信息,則抽樣單位成本較大的層應分配較少的樣本數(shù)目。7.5.3樣本容量的確定整群抽樣需要將總體各個個體分為N組(也稱作群),使總體中每個個體只屬于一群??傮w組1組2個體4個體5個體1個體6個體2個體37.6整群抽樣例如,我們想調(diào)查某省的登記選民。則有兩種方法:調(diào)查某省的登記選民。有兩種方法:第一種方法是建立包含該省所有登記選民的抽樣框,然后根據(jù)抽樣框,選擇選民的一個簡單隨機樣本。第二種方法是整群抽樣,我們選擇用該省各縣的清單作抽樣框。在這個方法中,每個縣(或群)包含一組登記選民,而該省的每個登記選民只屬于一群。7.6整群抽樣分層抽樣和整群抽樣都將總體劃分為組,因此這兩種抽樣過程感覺上是相似的。選擇整群抽樣與分層抽樣的原因是不同的。當群內(nèi)的個體存在差異時,整群抽樣可提供較好的結(jié)果。理想情形是每一群是整個總體的一個縮影,這時,抽取很少的群就可以提供關于整個總體特征的信息。整群抽樣與分層抽樣的比較7.6整群抽樣[例7.6]某省擁有12000名執(zhí)業(yè)注冊會計師的注冊會計師協(xié)會進行了一項調(diào)查。作為調(diào)查的一部分,注冊會計師協(xié)會收集與收入、性別和與注冊會計師生活方式有關的因素的信息。因為用個人采訪法去搜集所需要的信息,因此注冊會計師協(xié)會采用整群抽樣,以使總的差旅費和采訪費用達到最小。抽樣框中包含所有在該省登記注冊的執(zhí)業(yè)會計師事務所。7.6整群抽樣假設有1000群,即在該省登記注冊的從事會計活動的會計師事務所有1000個,選擇10個會計師事務所為一個簡單隨機樣本。[例7.6](續(xù))7.6整群抽樣為了介紹在整群抽樣中,構(gòu)造總體均值、總體總量和總體比率的近似95%置信區(qū)間需要的公式,我們使用如下的記號:N—總體的群數(shù);n—樣本中選出的群數(shù);Mi—i群的單位數(shù);M—總體單位數(shù);M=M1+M2+…十MN;—每一群的平均單位數(shù)。Xi——第i群所有觀察值的總量;ai——第i群具有某特征的觀察值的數(shù)量;7.6整群抽樣對注冊會計師協(xié)會的抽樣調(diào)查,我們有如下資料:N=1000n=10M=12000
下表7-4為每個中選群的Mi和xi的值,以及中選事務所中女注冊會計師的數(shù)量(ai)的資料。[例7.6](續(xù))7.6整群抽樣7.6整群抽樣由整群抽樣得到的總體均值的點估計的公式如下:(7-25)7.6.1總體均值該點估計量的標準差的估計為:(7-26)總體均值的近似95%的置信區(qū)間為:7.6.1總體均值根據(jù)表7-4的資料,我們可以得到執(zhí)業(yè)注冊會計師平均年薪的點估計為[例7.6](續(xù))7.6.1總體均值由于表7-4中的年薪資料是以千元計量的,因此,執(zhí)業(yè)注冊會計師的平均年薪的估計值為42531元。而:因此:[例7.6](續(xù))7.6.1總體均值因此標準差為1.730。我們得到平均年薪的近似95%置信區(qū)間:即(39.071,45.991)。[例7.6](續(xù))7.6.1總體均值整群抽樣的總體比率的點估計如下:(7-30)式中ai——第i群
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘教版數(shù)學八年級下冊《4.3一次函數(shù)的圖象與性質(zhì)》聽評課記錄3
- 人教版地理八年級上冊第三章《中國的自然資源》聽課評課記錄1
- 生態(tài)管護合同(2篇)
- 環(huán)境科學崗位中介合同(2篇)
- 北師大版歷史九年級上冊第16課《殖民地獨立運動》聽課評課記錄
- 湘教版數(shù)學九年級下冊《1.2二次函數(shù)y=a^2 b c的圖象與性質(zhì)(5)》聽評課記錄4
- 北師大版歷史八年級下冊第10課《偉大的歷史轉(zhuǎn)折》聽課評課記錄
- 【部編版】道德與法治九年級下冊6.1《學無止境》聽課評課記錄
- 吉林省七年級數(shù)學下冊第7章一次方程組7.3三元一次方程組及其解法聽評課記錄1新版華東師大版
- 初三年級組工作計劃范文
- DB61∕T 1854-2024 生態(tài)保護紅線評估調(diào)整技術(shù)規(guī)范
- GA 2139-2024警用防暴臂盾
- DL∕T 5810-2020 電化學儲能電站接入電網(wǎng)設計規(guī)范
- 北京三甲中醫(yī)疼痛科合作方案
- QCT957-2023洗掃車技術(shù)規(guī)范
- 新外研版高中英語選擇性必修1單詞正序英漢互譯默寫本
- 自愿斷絕父子關系協(xié)議書電子版
- 2023年4月自考00504藝術(shù)概論試題及答案含解析
- 美麗的大自然(教案)2023-2024學年美術(shù)一年級下冊
- 成都特色民俗課件
- 花城版音樂四下-第四課-認知音樂節(jié)奏(教案)
評論
0/150
提交評論